xAI випускає Grok 4.3: вражаюче швидке клонування голосу за низькою ціною

Поки Ілон Маск змагається в суді зі своїм колишнім колегою та співзасновником OpenAI Семом Альтманом, його конкурентна компанія xAI, заснована з метою протистояти OpenAI, не сповільнюється у запуску нових продуктів та послуг. Минулої ночі xAI представила нову пропрієтарну базову мовну модель (LLM) Grok 4.3 та новий інструмент для клонування голосу через веб-інтерфейс.

Ці новинки з’являються після кількох місяців неспокою в xAI, коли компанію покинули всі 10 початкових співзасновників лабораторії та десятки інших дослідників. Водночас продуктивність Grok почала поступатися багатьом новим конкурентним LLM від таких гравців, як OpenAI, Anthropic, Google, а також китайських компаній DeepSeek, Moonshot (Kimi), Alibaba (Qwen), z.ai та інших.

Хоча Grok 4.3 демонструє значний стрибок у продуктивності на сторонніх бенчмарках порівняно з попередньою версією Grok 4.2, за даними незалежної компанії з оцінки ШІ-моделей Artificial Analysis, вона все ще поступається найсучаснішим моделям від OpenAI та Anthropic.

Проте ключовою особливістю бренду Grok, окрім заявленої протидії Маска “wokeness”, більш вільної особистості та політики генерації зображень, стає його низька ціна для розробників і користувачів через API xAI. Ця тенденція посилюється з Grok 4.3, яка коштує 1,25 долара за мільйон вхідних токенів та 2,50 долара за мільйон вихідних токенів. Це значно нижче початкової ціни API попередника Grok 4.2 — 2/6 долара за мільйон вхідних/вихідних токенів.

xAI випускає Grok 4.3: вражаюче швидке клонування голосу за низькою ціною 1

Згідно з примітками до випуску xAI, Grok 4.3 розпочав бета-тестування у квітні для підписників плану SuperGrok за 30 доларів на місяць, а також для користувачів соціальної мережі X через план Premium+ (40 доларів на місяць з 50% знижкою протягом перших двох місяців). Тепер він доступний для всіх через API xAI та через партнера OpenRouter.

Інтегроване міркування та можливості використання інструментів агентами

В основі Grok 4.3 лежить фундаментальна зміна у способі обробки інформації моделлю. На відміну від попередніх ітерацій, де “ланцюжок думок” або процес міркування часто можна було ввімкнути чи налаштувати рівнями зусиль, Grok 4.3 створено з міркуванням як активним, постійним станом. Це означає, що модель розроблена так, щоб “думати” перед тим, як відповісти на кожен запит, що має максимізувати точність фактів та обробку складних, багатоетапних інструкцій.

Пам’ять моделі також розширена: вона має контекстне вікно в 1 мільйон токенів. Для порівняння, мільйон токенів приблизно дорівнює кільком товстим романам або всьому коду середнього додатка. Це дозволяє Grok 4.3 підтримувати узгодженість над величезними наборами даних, хоча xAI запровадила структуру “вищої ціни за контекст” для запитів, що перевищують поріг у 200 000 токенів. Ця багаторівнева система свідчить про те, що, хоча “довготривала пам’ять” доступна, обчислювальні витрати на керування таким обсягом інформації залишаються значними.

Технічно модель приймає як текстові, так і зображеві входи, виводячи текст. Вона спеціально оптимізована для агентських робочих процесів — сценаріїв, де ШІ не просто відповідає на запитання, а діє як автономний агент для виконання завдання. Вперше Grok має доступ до тих самих інструментів та середовищ, які використовував би професіонал.

Докази цієї зміни помітні в ранніх взаємодіях користувачів:

  • Інженерія електронних таблиць: В одному випадку модель витратила 6 хвилин 22 секунди на фазу “роздумів”, щоб створити комплексний аналізатор OSRS Sailing Combat DPS. Результативний файл .xlsx був не просто простою таблицею, а багатосторінковою панеллю керування, що включала набір “Reference_Data” та складний “DPS_Calculator” з автоматичними розрахунками за формулами.
  • Професійна документація: Grok тепер генерує відформатовані PDF-файли, такі як 12-сторінкові звіти про продукти SpaceX. Ці документи включають брендинг, логотипи, ключові зображення та структуровані таблиці, виходячи далеко за межі блоків markdown попередніх ітерацій.
  • Візуальні презентації: Модель може створювати 9-сторінкові презентації PowerPoint, використовуючи “структуру бутерброда” (темні заголовки/висновки зі світлим вмістом) та інтегруючи матриці прийняття рішень на основі даних і гумор.

Однак її знання про світ не безмежні; у примітках до випуску зазначено дату останнього оновлення знань — грудень 2025 року. Проте, завдяки вбудованому пошуку в мережі, Grok може посилатися та використовувати актуальну інформацію. Насправді, Grok 4.3 поставляється з розширеною екосистемою інструментів, розроблених для того, щоб зробити його функціональним цифровим співробітником. Платформа xAI тепер пропонує надійний набір серверних інструментів, які модель може викликати автономно залежно від складності запиту.

  • Пошук у мережі та X: Ці інструменти дозволяють Grok обходити обмеження своїх знань, переглядаючи веб-сайти в реальному часі або шукаючи пости, профілі користувачів та теми в X (раніше Twitter).
  • Виконання коду: Модель може запускати код Python у пісочниці для вирішення математичних задач або обробки даних.
  • Пошук у файлах та колекціях: Вбудована система Retrieval-Augmented Generation (RAG) дозволяє користувачам запитувати завантажені колекції документів або здійснювати пошук у конкретних файлах-вкладеннях.

xAI Custom Voices: Клонуйте свій голос з високою якістю за хвилину-дві

Окрім тексту, xAI представила Custom Voices — потужний API для клонування голосу та веб-інструмент для його створення. Цей продукт дозволяє розробникам клонувати голос з аудіозапису тривалістю від 120 секунд. Після клонування “ідентифікатор голосу” можна використовувати в API Text-to-Speech (TTS) та Voice Agent від xAI.

Документація xAI наголошує, що це не просто про тембр; модель розроблена для відтворення патернів вимови. Якщо користувач записує референсний кліп у стилі “підтримки клієнтів”, згенерований ШІ-голос буде імітувати це корисне, професійне інтонування.

Незважаючи на творчий потенціал, xAI встановила суворі географічні обмеження на цю функцію, зробивши її доступною лише у Сполучених Штатах, з помітним винятком для Іллінойсу через регіональні норми щодо біометрії та приватності.

Хоча майданчик консолі відкритий для загального використання, програмний доступ через кінцеву точку POST /v1/custom-voices наразі доступний лише для команд з планом Enterprise. Я спробував це сам і, пройшовши необхідні екрани вибірки голосу в Інтернеті — інструмент просить вас прочитати кілька уривків непов’язаного діалогу — я дійсно отримав копію свого голосу, яка звучала моторошно ідентично моєму, і точно вимовляла нові слова так само, як я б це зробив, читаючи новий сценарій.

Ви можете видалити свої власні голоси одним кліком у веб-додатку xAI Custom Voices та створити до 30 нових одночасно. Щодо ліцензування, функція Custom Voices суворо “обмежена вашою командою” і ніколи не стає доступною іншим користувачам, забезпечуючи приватну комерційну ліцензію для корпоративних активів.

Доступ до нового API Voice Agent (grok-voice-think-fast-1.0) оплачується за фіксованою ставкою 3,00 долара на годину (0,05 долара за хвилину) для взаємодій “мова-в-мову”. Це відповідає низько-середньому діапазону витрат порівняно з іншими конкурентними голосовими агентами, за моїми дослідженнями:

Сервіс

Ціна за 1 тис. символів

Орієнтовна вартість за хвилину

Орієнтовна вартість за годину

OpenAI TTS (Standard)

0,015 долара

~0,015 долара

~0,90 долара

OpenAI TTS (HD)

0,030 долара

~0,030 долара

~1,80 долара

Grok Voice Agent

0,05 долара

3,00 долара

ElevenLabs (Starter)

~$0,30

~$0,30

~$18,00

ElevenLabs (Pro)

~$0,18

~$0,18

~$10,80

Play.ht

~$0,20

~$0,20

~$12,00

Azure/Google Cloud

0,016 – 0,024 долара

~$0,02

~$1,00 – $1,50

Додатково пропонується окремий сервіс Text-to-Speech (TTS), який має п’ять різних голосів (Eve, Ara, Rex, Sal і Leo) і коштує 4,20 долара за 1 мільйон символів. Для потреб транскрипції API Speech-to-Text (STT) забезпечує потокову передачу в реальному часі за 0,20 долара на годину, а пакетна обробка доступна за зниженою ціною 0,10 долара на годину. Для забезпечення безпеки клієнтських програм xAI використовує Ephemeral Tokens, що дозволяє захищені WebSocket-з’єднання без розкриття основних ключів API.

Після створення ці голоси є приватними для команди користувача і можуть використовуватися в усіх голосових API за допомогою унікального 8-символьного буквено-цифрового ідентифікатора voice_id. Для високорегульованих секторів xAI підтримує виробничі стандарти, включаючи аудит SOC 2 Type II, відповідність HIPAA для медичних робочих навантажень та GDPR.

Агресивно низькі ціни API як диференціатор

Найбільш агресивним аспектом анонсу Grok 4.3 є його цінова структура. Бінд Радді, генеральний директор стартапу Abacus AI, зазначив у X, що модель ” така ж розумна, як Sonnet 4.6, і в 5 разів дешевша та швидша”. Стандартні ціни API встановлені на рівні 1,25 долара за мільйон вхідних токенів та 2,50 долара за мільйон вихідних токенів. Це значне зниження вартості порівняно з попередником, Grok 4.20, з приблизно 40% нижчою ціною за вхід та 60% нижчою ціною за вихід, згідно з даними Artificial Analysis.

За нашими розрахунками, це ставить Grok-4.3 твердо в нижню половину за вартістю серед усіх основних фундаментальних моделей, значно ближче до китайських відкритих пропозицій, ніж до своїх американських пропрієтарних конкурентів:

Модель

Вхід

Вихід

Загальна вартість

Джерело

MiMo-V2.5 Flash

0,10 долара

0,30 долара

0,40 долара

Xiaomi MiMo

Grok 4.1 Fast

0,20 долара

0,50 долара

0,70 долара

xAI

MiniMax M2.7

0,30 долара

1,20 долара

1,50 долара

MiniMax

MiMo-V2.5

0,40 долара

2,00 долара

2,40 долара

Xiaomi MiMo

Gemini 3 Flash

0,50 долара

3,00 долара

3,50 долара

Google

Kimi-K2.5

0,60 долара

3,00 долара

3,60 долара

Moonshot

Grok 4.3

1,25 долара

2,50 долара

3,75 долара

xAI

GLM-5

1,00 долара

3,20 долара

4,20 долара

Z.ai

GLM-5-Turbo

1,20 долара

4,00 долара

5,20 долара

Z.ai

DeepSeek V4 Pro

1,74 долара

3,48 долара

5,22 долара

DeepSeek

GLM-5.1

1,40 долара

4,40 долара

5,80 долара

Z.ai

Claude Haiku 4.5

1,00 долара

5,00 долара

6,00 долара

Anthropic

Qwen3-Max

1,20 долара

6,00 долара

7,20 долара

Alibaba Cloud

Gemini 3 Pro

2,00 долара

12,00 долара

14,00 долара

Google

GPT-5.4

2,50 долара

15,00 долара

17,50 долара

OpenAI

Claude Opus 4.7

5,00 долара

25,00 долара

30,00 долара

Anthropic

GPT-5.5

5,00 долара

30,00 долара

35,00 долара

OpenAI

Однак “міркування” моделі запроваджує нову категорію білінгу: токени міркування. Це токени, згенеровані під час внутрішнього процесу мислення моделі, і вони біляться за тією ж ставкою, що й стандартні токени завершення. По суті, користувачі платять за “роздуми” ШІ перед тим, як він надасть остаточну відповідь. xAI також запровадила кілька унікальних структур оплати:

  • Кешування підказок: Повторювані підказки значно дешевші — 0,20 долара за мільйон токенів, що стимулює розробників повторно використовувати контекст.
  • Виклики інструментів: Хоча використання токенів для інструментів білиться за стандартними ставками, сам виклик інструменту несе фіксовану плату — 5,00 долара за 1000 викликів для пошуку в мережі або виконання коду, та 10,00 долара для вкладень файлів.
  • Штраф за порушення правил використання: У кроці, який може встановити новий галузевий прецедент, xAI стягує штраф у розмірі 0,05 долара за запити, заблоковані фільтрами безпеки перед початком генерації.

Сама модель залишається доступною через стандартний комерційний API, причому xAI рекомендує всім розробникам перейти на grok-4.3 як на свою “найбільш інтелектуальну та найшвидшу модель”.

Оцінки сторонніх бенчмарків та аналіз

Сприйняття Grok 4.3 було поляризованим, значною мірою залежно від конкретного сценарію використання. Професійні тестувальники та розробники відзначили “чітку прогалину” між галузевими сильними сторонами моделі та її загальною послідовністю міркувань.

За даними незалежної компанії з оцінки ШІ Vals AI, Grok 4.3 зайняв перше місце за кількома спеціалізованими показниками. Наразі він посідає №1 на CaseLaw v2 (79,3% точності) та №1 на CorpFin. Цей 25-пунктовий стрибок у юридичних міркуваннях порівняно з Grok 4.20 свідчить про те, що архітектура “постійного міркування” особливо добре підходить для щільних, логічних структур права та фінансів.

Artificial Analysis підтвердила цю продуктивність, відзначивши значне покращення в агентських завданнях, досягнувши Elo 1500 на бенчмарку GDPval-AA, випередивши конкурентів, таких як Gemini 3.1 Pro та GPT-5.4 mini.

Навпаки, користувачі, зосереджені на загальних агентах та кодуванні, відзначили недоліки. Компанія Andon Labs, що займається автоматизованою роздрібною торгівлею, повідомила, що Grok 4.3 є “великим регресом” на Vending-Bench 2, який вимірює здатність ШІ здійснювати послідовні дії в симуляції. Вони яскраво описали модель як таку, що має “проблеми з нарколепсією”, віддаючи перевагу бездіяльності протягом кількох днів симуляції, а не виконанню необхідних дій.

Це відчуття підтримали і в Vals AI, зазначивши, що хоча модель покращилася в деяких сферах кодування, вона залишається слабкою в загальних завданнях кодування і “бороться зі складними математичними задачами”, показавши лише 11% на ProofBench.

Чи варто вашому підприємству використовувати Grok 4.3?

Запуск Grok 4.3 — це виважена ставка xAI на те, що ринок прагне спеціалізованого блиску та екстремної ефективності витрат, а не ідеально збалансованого універсала. Досягнувши показника 53 за індексом штучного інтелекту Artificial Analysis, залишаючись на “Парето-фронтірі” співвідношення витрат та інтелекту, xAI позиціонує себе як лідер “цінності” для корпоративних застосувань у галузі юридичних та фінансових технологій.

“Постійне міркування” є палицею з двома кінцями. Хоча воно забезпечує глибину, необхідну для навігації у складному прецедентному праві, звіти спільноти про “нарколепсію” свідчать про те, що модель, яка завжди “думає”, іноді може загнати себе в стан паралічу, або принаймні надмірної обережності, що перешкоджає агентським діям.

Крім того, попередні скандали з моделями Grok, включаючи версію чат-бота X, яка називала себе “MechaHitler” та публікувала антисемітський контент, генерація сексуальних діпфейків та розслідування, а також посилання на расові конфлікти та правий популізм у висвітленні соціальних питань — що, здається, відображає багато власних позицій засновника Маска, до такої міри, що модель свого часу перевіряла власний акаунт Маска в X перед відповіддю у своїй реалізації X — майже напевно змусять деякі підприємства замислитись перед ухваленням рішення. Незрозуміло, чи залишаються ці проблеми з Grok 4.3, але один користувач зазначив, що системний запит Grok, здається, інструктує його “ти не призначаєш загальні позитивні/негативні функції корисності групам людей”.

Для розробників вибір на користь Grok 4.3, ймовірно, залежатиме від природи їхніх даних. Для тих, кому потрібно обробляти мільйон токенів юридичних документів за частку вартості Claude 4.6 або GPT-5.5, Grok 4.3 є явним лідером. Для тих, хто створює високочастотних автономних агентів або складні математичні розв’язувачі, “нарколепсія” та регресії в кодуванні свідчать про те, що найновіша модель xAI може потребувати ще кількох “налагоджувальних проходів”.

Як зазначив OpenRouter у X, зробивши модель доступною, “великий стрибок у продуктивності агентів” за нижчою ціною є незаперечною віхою. Чи зможе ця продуктивність зберігатися у всіх сферах, залишається головним питанням літа 2026 року.

Прогноз ІТ-Блогу: xAI, використовуючи стратегію агресивного ціноутворення та фокусування на спеціалізованих можливостях, може успішно зайняти нішу на ринку. Однак, щоб досягти широкого корпоративного прийняття, компанії доведеться продемонструвати стабільну та надійну роботу в усіх доменах, а також подолати будь-які залишки проблем з етичними нормами ШІ.

За матеріалами: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *