Cerebras розкриває потужність: трильйонний ШІ-модель обробляється в 7 разів швидше за хмарні GPU

Менш ніж за тиждень після завершення найбільшого IPO в технологічному секторі 2026 року, компанія Cerebras Systems робить найрішучіший крок у боротьбі за домінування на ринку ШІ-інференсу, що стрімко зростає. У понеділок виробник чіпів із Саннівейлу оголосив, що тепер забезпечує роботу Kimi K2.6 — відкритої мовної моделі з трильйоном параметрів, розробленої пекінською компанією Moonshot AI, — для корпоративних клієнтів зі швидкістю майже 1000 токенів на секунду. Це швидкість, якої не може досягти жоден провайдер на основі GPU.

Результат, незалежно перевірений компанією Artificial Analysis, яка спеціалізується на бенчмаркінгу, показав 981 вихідних токенів на секунду. Це робить Cerebras у 6,7 раза швидшою за наступного найшвидшого хмарного провайдера на базі GPU і в 23 рази швидшою за середній показник. Для стандартного завдання з кодування, що вимагає 10 000 вхідних токенів, Cerebras надала повну відповідь — включно з обробкою запиту, міркуванням і 500 вихідними токенами — за 5,6 секунди, порівняно зі 163,7 секунди на офіційному кінцевому пункті Kimi. Це 29-кратне покращення часу до отримання остаточної відповіді.

“Ми справді хочемо бути дуже чіткими та показати, що ми можемо працювати з найбільшими моделями”, — заявив Джеймс Ванг, директор з маркетингу продукції Cerebras, в ексклюзивному інтерв’ю VentureBeat перед анонсом. “У цьому випадку Kimi K2.6 — це модель Mixture-of-Experts (MoE) з трильйоном параметрів на архітектурі wafer-scale, яка працює з тією ж неймовірною швидкістю, якою ми славимося”.

Це оголошення знаменує критичний поворотний момент для Cerebras, яка довго боролася з уявленням, що її нетрадиційні wafer-scale чіпи, хоч і надзвичайно швидкі, можуть обробляти лише малі та середні моделі. Kimi K2.6 — це перша відкрита модель з трильйоном параметрів, яку компанія коли-небудь запускала у виробництво. Маючи свіжостворену ринкову капіталізацію у 95 мільярдів доларів і 5,55 мільярдів доларів від IPO, Cerebras сигналізує Уолл-стріт, що вона має намір конкурувати не лише на передовій швидкості, але й на передовій масштабу моделей.

Cerebras розкриває потужність: трильйонний ШІ-модель обробляється в 7 разів швидше за хмарні GPU 2

Чому Cerebras обрала китайську модель як свій флагманський продукт з трильйоном параметрів

Вибір Kimi K2.6 відображає як технічний етап, так і комерційний розрахунок. Випущена 20 квітня компанією Moonshot AI — пекінським стартапом, заснованим у 2023 році випускниками Університету Цінхуа і названим однією з “AI Tiger” компаній Китаю — K2.6 є моделлю Mixture-of-Experts з трильйоном параметрів, яка швидко стала найпотужнішою відкритою моделлю для завдань програмування та роботи з агентами. Модель посідає перше місце в SWE-Bench Pro з показником 58,6, випереджаючи Claude Opus 4.6 і зрівнюючись з GPT-5.4, демонструючи провідні результати на бенчмарках для агентів, таких як Humanity’s Last Exam та DeepSearchQA. Її архітектура використовує 32 мільярди активних параметрів на токен з загальних 1 трильйона, з 384 експертами, з яких 8 вибираються плюс 1 спільний на кожен прохід, працюючи з контекстним вікном у 256 000 токенів.

Практично, K2.6 є однією з перших відкритих моделей, яку підприємства можуть використовувати як пряму заміну дорогим, обмеженим за потужністю закритим API від Anthropic та OpenAI — особливо для завдань програмування та роботи з агентами, які стали найціннішим застосуванням великих мовних моделей. Версія 2.6 розширює можливості K2.6 від дизайну фронтенду до повного стеку робочих процесів, включаючи автентифікацію, операції з базами даних та виконання довготривалих завдань агентами.

Ванг відверто розповів про те, що спонукає інтерес підприємств. “По-перше, вони дуже мотивовані мати альтернативу Anthropic”, — сказав він VentureBeat. “Моделі Anthropic фантастичні. Я користуюся ними. Я впевнений, ви, ймовірно, теж. Але вони досить дорогі, і потужності постійно не вистачає”. Він описав особистий досвід, коли додаток, що працював на API Anthropic, вийшов з ладу на вихідних через брак потужностей — анекдот, який, за його словами, глибоко резонує з корпоративними покупцями.

Однак, геополітичний аспект цієї домовленості вартий уваги. Kimi K2.6 — це модель, розроблена в Китаї, яка обслуговується американським виробником чіпів для американських корпоративних клієнтів. Moonshot AI працює в Пекіні, а впровадження K2.6 на Заході відбувається в період посиленої уваги до китайських ШІ-компаній на ринку США. Корпоративні покупці зі строгими вимогами до відповідності нормам — особливо у сферах фінансових послуг, охорони здоров’я та оборони — повинні будуть оцінити цей аспект поряд з технічними можливостями моделі.

Як wafer-scale чіпи вирішують проблему швидкості трильйона параметрів, яку GPU не можуть подолати

Щоб зрозуміти, чому Cerebras може досягати таких швидкостей, потрібно зрозуміти, що робить її обладнання принципово відмінним від усього іншого на ринку. Більшість ШІ-інференсу сьогодні працює на кластерах GPU від Nvidia — зазвичай організованих у стійки по 72 GPU, що Nvidia називає конфігурацією NVL72. У цих системах параметри моделі розподіляються між багатьма дискретними чіпами, з’єднаними високошвидкісною мережевою тканиною. Дані повинні постійно пересилатися між чіпами, а пропускна здатність між’єднання між GPU стає вузьким місцем, особливо для великих моделей із сотнями мільярдів або трильйонами параметрів.

Cerebras застосовує радикально інший підхід. Її Wafer-Scale Engine 3 — це один чіп розміром з цілу кремнієву пластину — приблизно з обідню тарілку — що містить 44 гігабайти SRAM на чіпі. На відміну від пам’яті з високою пропускною здатністю, що використовується в GPU, SRAM розташована безпосередньо на кристалі процесора, забезпечуючи значно нижчу затримку та вищу пропускну здатність для доступу до даних. Для Kimi K2.6 Cerebras зберігає ваги моделі в їхній початковій 4-бітній точності, виконуючи обчислення з 16-бітною плаваючою комою. Ваги розподіляються між кількома пластинами в кластері приблизно з 20 систем CS-3, при цьому активації передаються між ними. Важливо, що всі експерти для певного шару MoE розміщені на одній пластині, що означає, що комунікація “всі до всіх”, необхідна для маршрутизації експертів, відбувається зі швидкостями SRAM. Згідно з технічним описом Cerebras, мережева тканина на пластині забезпечує більш ніж у 200 разів вищу пропускну здатність, ніж NVLink на NVL72.

Ванг пояснив архітектуру за допомогою аналогії. “Наші окремі блоки значно більші та мають вищу ємність — вони порядку 20 стійок, на відміну від 72 GPU”, — сказав він. Кожен шар у трансформері може, по суті, одночасно обслуговувати окремого користувача. “Це як черга, наче ви стоїте в черзі за бейглами, — вони всі займають різні частини апаратного забезпечення. Але оскільки вони рухаються так швидко, фактичний досвід, токени на секунду, для одного користувача залишається тим, яким ви звикли”. У поєднанні з користувацькими ядрами та спекулятивним декодуванням це дозволяє Cerebras обслуговувати модель MoE з трильйоном параметрів зі швидкістю майже 1000 токенів на секунду — швидкість, яку компанія називає світовим рекордом, досяжним лише за допомогою wafer-scale обладнання.

Cerebras розкриває потужність: трильйонний ШІ-модель обробляється в 7 разів швидше за хмарні GPU 3

Компанії зі списку Fortune 500 вже тестують трильйон-параметрову інференцію Cerebras у виробництві

Cerebras не відкриває K2.6 для широкої публіки. Натомість компанія позиціонує це як пропозицію, орієнтовану на підприємства, де компанії зі списку Fortune 500 у сферах програмного забезпечення, фінансових послуг та охорони здоров’я наразі проводять хмарні випробування своїх виробничих навантажень на платформі. “Це логотипи, про які ви точно чули”, — сказав Ванг, хоча й відмовився назвати конкретних клієнтів через угоди про конфіденційність.

Підхід, орієнтований на підприємства, є навмисним. Cerebras історично віддавала пріоритет своїм найбільшим клієнтам перед загальнодоступним API, частково через обмеженість потужностей обладнання. “Усі стикаються з дефіцитом потужностей. Ми надаємо пріоритет нашим корпоративним клієнтам, тому ми не відображаємо це в загальнодоступному шлюзі або API, де виникає дуже непередбачуваний трафік, коли один користувач може фактично захопити весь ваш кластер”, — пояснив Ванг. Обслуговування K2.6 також обмежує здатність компанії одночасно пропонувати інші великі моделі. “Ми не можемо одночасно, знаєте, мати шість інших моделей”, — визнав він. “Це просто взаємне обмеження реальності”.

Щодо ціноутворення, Ванг зазначив, що хоча корпоративне розгортання не має публічних цін, витрати компанії загалом конкурентоспроможні з провайдерами на основі GPU. “За всіма моделями, які ми обслуговували з ціноутворенням, ціна дуже порівнянна — можливо, середня, десь на верхньому рівні середньої ціни GPU”, — сказав він. “Це не так, що, оскільки ми працюємо швидко, це коштує в багато разів дорожче”. Однак він окреслив межу для нижнього сегменту ринку: якщо ви готові запускати K2.6 зі швидкістю 20 токенів на секунду на бюджетній GPU-інфраструктурі, Cerebras не буде конкурувати за ціною. “Ми — автовиробник на ринку пікапів. Ми не працюємо на цьому ринку”, — сказав Ванг. Для навантажень, чутливих до швидкості — особливо для програмування з агентами, де розробники чекають у реальному часі, поки модель генерує та ітерує код — ціннісна пропозиція є прямолінійною: порівнянна вартість за токен, але в десятки разів швидша доставка.

Загроза конкуренції з боку придбання Groq компанією Nvidia за 20 мільярдів доларів виглядає значною

Анонс Cerebras з’являється у переломний момент в індустрії ШІ-чіпів, коли ринок інференсу швидко випереджає тренування як найважливіше комерційне обчислювальне навантаження. З поширенням ШІ-агентів у корпоративному програмному забезпеченні швидкість інференсу безпосередньо визначає їх практичну корисність, і конкурентний тиск відповідно посилюється.

Найзначнішою конкурентною подією останніх місяців стало придбання Groq компанією Nvidia за 20 мільярдів доларів — угода, яка надала GPU-гіганту доступ до пропрієтарної технології інференсу, побудованої на спеціалізованих Language Processing Units. Ванг прямо згадав про цю угоду. “Я думаю, Nvidia тепер відчуває, що швидкий інференс — це надзвичайно важливий ринок”, — сказав він VentureBeat. “Ось чому вони готові витратити 20 мільярдів доларів на придбання такої компанії”.

Але Ванг висловив упевненість у стійкості архітектурних переваг Cerebras. І Nvidia, і Cerebras працюють приблизно на річних циклах оновлення обладнання. “Ми оновлюємо наше обладнання за періодичним циклом. Незабаром ви почуєте від нас новини про це”, — сказав Ванг, натякаючи на майбутній анонс обладнання, не надаючи деталей. З точки зору програмного забезпечення, Ванг вказав на досвід компанії у швидкій адаптації до екосистеми відкритих мовних моделей, що швидко розвивається. “Ми почали з Llama, підтримували всі моделі Qwen, а потім, коли розробники сказали нам, що їм потрібен GLM, ми запустили GLM. І тепер вони кажуть нам, що Kimi — найкраща, тому ми надаємо їм Kimi”, — сказав він. “Водночас ми також підтримували найкращі компанії у запуску їхніх закритих моделей — OpenAI, Cognition, Mistral”.

Згадка OpenAI підкреслює одні з найнезвичайніших бізнес-відносин в індустрії ШІ. OpenAI та Cerebras уклали угоду на початку 2026 року, яка, за повідомленнями, коштувала понад 20 мільярдів доларів за обчислювальні потужності та пов’язані послуги. Ванг підтвердив, що Cerebras обслуговує “внутрішні кодингові моделі OpenAI, що готуються”, але відмовився розкривати деталі, оскільки жодна зі сторін публічно не деталізувала технічну домовленість.

Як Cerebras планує обслуговувати найінтелектуальніші ШІ-моделі швидше за всіх

Ванг представив розгортання K2.6 як сходинку, а не кінцеву точку. Cerebras почала надавати послуги інференсу наприкінці 2024 року з відносно невеликими моделями і провела понад рік, масштабуючись від 70 мільярдів параметрів до понад 1 трильйона. “Ми не могли запустити це в листопаді 2024 року”, — сказав він. “Але зараз ми це робимо”.

Наступне завдання компанії — перейти від обслуговування найкращої відкритої моделі до обслуговування найкращих моделей загалом — включаючи закриті моделі від таких компаній, як Anthropic та OpenAI, які посідають найвищі місця в рейтингах інтелекту. “Це перша відкрита модель нового покоління, щодо якої ми тепер маємо чіткі продемонстровані докази”, — сказав Ванг. “Я думаю, протягом року ви побачите, як ми будемо обслуговувати справжні передові моделі зі швидкістю, якою ми славимося. І ви повинні покластися на нас у цьому”.

На запитання, чи не буде поточний запуск витіснений темпами покращення обладнання у Nvidia та інших компаніях, Ванг залишався незворушним. “Nvidia має дуже чітку дорожню карту. Вони публікують її щороку на GTC. Вони приблизно на річному циклі продукту, як і ми. Незабаром ви почуєте від нас новини про це”, — сказав він, натякаючи на нове обладнання, не надаючи деталей.

Він також відповів на питання про прив’язку до постачальника — занепокоєння, яке підняв би будь-який CTO, що оцінює рішення для інференсу від одного постачальника. “Ці підприємства рідко повністю зобов’язуються перед одним постачальником”, — сказав Ванг. “У них є стратегії, щоб гарантувати, що частина трафіку може йти до нас, частина — до когось іншого, і між ними відбувається балансування навантаження. Це не нова проблема. Це просто загальний спосіб управління хмарними ресурсами”.

Суть пропозиції, зрештою, полягає не лише у швидкості та технічних характеристиках. Ванг бачить, як індустрія ШІ зливається у світ, де автономні агенти — а не люди-розробники — є основними споживачами обчислювальних потужностей для інференсу, і де швидкість цих агентів визначає конкурентні результати для компаній, які їх розгортають. “Світова економіка перебудовується на основі агентів”, — сказав Ванг. “Швидкість визначатиме, хто виграє або програє”.

Це смілива заява від компанії, яка до минулого тижня ніколи не торгувалася на публічній біржі. Але для Cerebras логіка проста: якщо майбутнє корпоративного програмного забезпечення будується за допомогою ШІ-агентів, які думають зі швидкістю їхнього обладнання, то компанія, яка надає найшвидше обладнання, надає найшвидше мислення. І на ринку, де підприємства витрачають мільярди, щоб скоротити час відповіді ШІ на секунди, компанія, яка може обслуговувати трильйон-параметрову модель за час, потрібний для приготування чашки кави, можливо, має найпереконливішу пропозицію в Кремнієвій долині.

Прогноз ІТ-Блогу: Cerebras Systems, ймовірно, розширить свої можливості інференсу, інтегруючи ще більші моделі та оптимізуючи свої wafer-scale чіпи для ще вищої продуктивності. Компанія може зіткнутися зі зростаючою конкуренцією з боку великих хмарних провайдерів, які розробляють власні спеціалізовані рішення для інференсу.

Дізнатися більше на: venturebeat.com

Чому Cerebras обрала китайську модель як свій флагманський продукт з трильйоном параметрів

Як wafer-scale чіпи вирішують проблему швидкості трильйона параметрів, яку GPU не можуть подолати

Компанії зі списку Fortune 500 вже тестують трильйон-параметрову інференцію Cerebras у виробництві

Загроза конкуренції з боку придбання Groq компанією Nvidia за 20 мільярдів доларів виглядає значною

Як Cerebras планує обслуговувати найінтелектуальніші ШІ-моделі швидше за всіх

Залишити відповідьСкасувати відповідь