Cerebras розкриває секрет потужності новітньої моделі OpenAI: революція в AI-інференсі поза домінуванням NVIDIA

Cerebras розкриває секрет потужності новітньої моделі OpenAI: революція в AI-інференсі поза домінуванням NVIDIA 1

OpenAI досягла вражаючої продуктивності 1000 TPS завдяки надшвидкій пропускній здатності Cerebras

Попри попередні труднощі у відносинах між NVIDIA та OpenAI у фінансовій сфері, схоже, що в гонці за обчислювальними потужностями OpenAI обрала цікавий шлях через свою попередню співпрацю з Cerebras. У нещодавньому релізі моделі Codex було розкрито, що GPT‑5.3‑Codex‑Spark працює на базі ШІ-чипів Cerebras. Зокрема, перевагою використання цього апаратного забезпечення над іншими є “низька затримка” (low latency) під час інференс-навантажень, що буде розглянуто далі. Більш цікавим аспектом вибору обчислювальних ресурсів є те, що OpenAI, опосередковано, заявила про появу “грізного” конкурента NVIDIA у сфері інференсу.

Відмінність між основними моделями Codex та варіантом ‘Spark’ полягає в тому, що OpenAI стверджує, що він розроблений для “виконання завдань у реальному часі”. З GPT‑5.3‑Codex‑Spark було досягнуто значних покращень у затримці моделі шляхом оптимізації конвеєрів і, що найважливіше, завдяки використанню апаратного забезпечення Cerebras. OpenAI стверджує, що з цим релізом час до отримання першого токена було скорочено на 50%, що є надзвичайно цікавою цифрою.

Codex-Spark працює на базі Wafer Scale Engine 3 (WSE-3) від Cerebras. Нижче наведено технічні характеристики:

Специфікація WSE-3
Технологічний процес TSMC 5 нм
Транзистори ~4 трильйони
Обчислювальні ядра 900 000 ШІ-оптимізованих ядер
On-Chip SRAM 44 ГБ
Пропускна здатність пам’яті (On-Chip) 21 ПБ/с
Розмір пластини Повнорозмірна пластина 300 мм
Архітектура ядер ШІ-оптимізовані програмовані процесорні ядра

Причини вибору Cerebras та їхній вплив на продуктивність

Існує кілька причин, чому OpenAI обрала Cerebras для обчислень. Одна з найважливіших – це надзвичайно висока пропускна здатність пам’яті, яку надає WSE-3, що критично важливо для обчислювально-інтенсивних завдань, таких як кодування. Саме тому з Codex-Spark OpenAI досягає 1000 TPS, що, за заявами компанії, забезпечує відгук, порівнянний з “людським напарником-програмістом”. Використання інфраструктури NVIDIA для навчання Spark було б економічно недоцільним для OpenAI, враховуючи, що Blackwell зосереджений більше на пакетній обробці, ніж на затримці, тому Cerebras є логічним вибором.

Cerebras розкриває секрет потужності новітньої моделі OpenAI: революція в AI-інференсі поза домінуванням NVIDIA 2

Конкуренція на ринку інференсу та майбутнє NVIDIA

Однак, коли мова йде про інференс у великих масштабах, NVIDIA домінує за показниками “токеноміки” (tokenomics). Ми бачили це у нещодавній заяві компанії про те, як вона знизила витрати на токени до 10 разів за допомогою Blackwell. Сачін Катті з OpenAI зазначає, що завдяки Cerebras компанія отримує “додаткові можливості”, але лояльність ШІ-лабораторії в гонці за обчислювальними потужностями все ще на боці NVIDIA. Проте, з Codex-Spark чітко видно, що сьогодні вузьким місцем є затримка, і на апаратному рівні технологічний стек NVIDIA не ідеально підходить для домінування в цій галузі.

Буде цікаво спостерігати за тим, як надалі позиціонуватиме себе NVIDIA на ринку інференсу, враховуючи, що Cerebras є лише одним із грізних конкурентів у цьому сегменті, поряд з новими рішеннями від виробників ASIC та таких компаній, як AMD.

Головний підсумок від ІТ-Блогу: Інтеграція ШІ-чіпів Cerebras компанією OpenAI для моделі Codex-Spark демонструє потенційну слабкість NVIDIA у сфері інференсу з низькою затримкою. Хоча NVIDIA домінує у пакетній обробці, Cerebras пропонує значні переваги в швидкості реагування, що може переорієнтувати конкурентну динаміку на ринку ШІ.

Дізнатися більше на: wccftech.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *