NVIDIA першою прискорює DeepSeek V4 на Blackwell, досягаючи 3500 токенів/сек з моделями 1.6T

Вийшов DeepSeek V4, який приносить значні оптимізації, зокрема моделі розміром до 1.6T, і NVIDIA вже готова з підтримкою Day-0 на GPU Blackwell із NVFP4.

Архітектура NVIDIA Blackwell NVFP4 забезпечує значне прискорення DeepSeek v4, з подальшими оптимізаціями на черзі

З випуском DeepSeek V4 ми побачили суттєві оптимізації вимог до обчислень та пам’яті.

Оновлена модель штучного інтелекту використовує лише 27% FLOPs для однотокенної інференції та 10% KV-кешу під час роботи з контекстним вікном на один мільйон токенів. Також було представлено дві нові моделі: Pro з розміром параметрів 1.6T та Flash з розміром параметрів 284B.

NVIDIA першою прискорює DeepSeek V4 на Blackwell, досягаючи 3500 токенів/сек з моделями 1.6T 2

Специфікація	DeepSeek-V4-Pro	DeepSeek-V4-Flash
Модальність	Текст	Текст
Загальна кількість параметрів	1.6T	284B
Активні параметри	49B	13B
Довжина контексту	1M токенів	1M токенів
Макс. довжина виводу	До 384K токенів згідно з документацією DeepSeek API	До 384K токенів згідно з документацією DeepSeek API
Основні сценарії використання	Розширене міркування, кодування, агенти з довгим контекстом	Високоефективність, чат, маршрутизація, узагальнення
Ліцензія	MIT	Високоефективність, чат, маршрутизація та узагальнення

З цим запуском NVIDIA демонструє підтримку Day-0 та продуктивність GPU Blackwell у DeepSeek V4. Компанія стверджує, що GPU Blackwell забезпечують масштаб та продуктивність з низькою затримкою, необхідні для запуску інференції з довгим контекстом (1M) та моделей ШІ з трильйонами параметрів, які пропонує V4.

NVIDIA першою прискорює DeepSeek V4 на Blackwell, досягаючи 3500 токенів/сек з моделями 1.6T 3

Від розгортання в дата-центрах на NVIDIA Blackwell до керованих мікросервісів NIM та робочих процесів тонкого налаштування, NVIDIA надає низку варіантів для інтеграції DeepSeek та інших відкритих моделей на різних етапах розробки та розгортання. NVIDIA є активним учасником екосистеми з відкритим кодом та випустила кілька сотень проєктів під ліцензіями з відкритим кодом. NVIDIA прагне оптимізувати спільнотне програмне забезпечення, а відкриті моделі дозволяють користувачам широко ділитися роботою з безпеки та стійкості ШІ.

через NVIDIA

На слайді з продуктивністю NVIDIA демонструє пропускну здатність майже 3500 TPS на GPU (GB300 або Blackwell Ultra), і це лише попередні показники, які, як очікується, зростуть із подальшими оптимізаціями стеку спільного дизайну. Стек NVIDIA Blackwell пропонує низку технологій, спеціально розроблених для таких моделей, як V4, включаючи NVFP4, Dynamo, оптимізовані CUDA ядра, розширені методи паралелізації тощо.

📊 Day 0 performance is here: DeepSeek-V4-Pro running on NVIDIA Blackwell Ultra.

Using @vllm_project’s Day 0 recipe, we’ve captured the initial performance Pareto for DeepSeek’s flagship 1M long-context model. This curve highlights the baseline for balancing AI factory… pic.twitter.com/s6wi1Xvegj

— NVIDIA AI (@NVIDIAAI) April 24, 2026

Ключовим для DeepSeek V4 є застосування квантування FP4 (MXFP4), яке використовується для прискорення як розгортань, так і проходів інференції. З FP4 DeepSeek моделі V4 зменшують трафік пам’яті та затримку вибірки.

Варто зазначити, що новітні чіпи Huawei, Ascend 950PR та Ascend 950DT, обидва заплановані на 2026 рік, підтримують інструкції MXFP4. Це свідчить про те, що DeepSeek V4 також буде повністю сумісний із вітчизняними китайськими чіпами ШІ.

NVIDIA першою прискорює DeepSeek V4 на Blackwell, досягаючи 3500 токенів/сек з моделями 1.6T 4

Завдяки постійним оптимізаціям NVIDIA, майбутні моделі отримають надійну підтримку екосистеми “з коробки”.

Про автора: Хассан Муджтаба, інженер-програміст за освітою та ентузіаст ПК за покликанням, є головним редактором розділу апаратного забезпечення Wccftech. Маючи багаторічний досвід роботи в галузі, він спеціалізується на глибокому технічному аналізі процесорів та графічних процесорів наступного покоління, материнських плат та систем охолодження. Його робота включає не лише найсвіжіші новини про майбутні технології, але й всебічні огляди та тестування.

Слідкуйте за Wccftech на Google, щоб отримувати більше новин у своїх стрічках.

Розпродаж дня

NVIDIA першою прискорює DeepSeek V4 на Blackwell, досягаючи 3500 токенів/сек з моделями 1.6T 6

NVIDIA першою прискорює DeepSeek V4 на Blackwell, досягаючи 3500 токенів/сек з моделями 1.6T 7

Подальше читання

„Я виробляю найдешевші токени у світі“, – каже генеральний директор NVIDIA, підкреслюючи комплексний підхід до ШІ

Хассан Муджтаба

NVIDIA хоче, щоб усі переосмислили TCO ШІ та пояснює, чому „вартість за токен“ є єдиною метрикою, яка має значення

Хассан Муджтаба

Intel розкриє повні деталі революційного проєкту TeraFab Ілона Маска, який змінить індустрію виробництва мікросхем

Хассан Муджтаба

NVIDIA RTX PRO 4500 Blackwell Server Edition містить понад 10 тисяч ядер і 32 ГБ пам’яті GDDR7 в одному слоті

Хассан Муджтаба

Чи варто купувати? (Порада ІТ-Блогу): NVIDIA Blackwell та її функція NVFP4 демонструють надзвичайну продуктивність при роботі з новими великими мовними моделями, такими як DeepSeek V4. Хоча точна вартість цих рішень для кінцевого споживача ще не розголошується, очевидно, що вони спрямовані на корпоративний сегмент ринку, де висока продуктивність і ефективність є пріоритетом. Для компаній, які працюють з передовими моделями ШІ, інвестиції в обладнання NVIDIA Blackwell виглядають виправданими з точки зору майбутнього розвитку та конкурентоспроможності.

За даними порталу: wccftech.com

Архітектура NVIDIA Blackwell NVFP4 забезпечує значне прискорення DeepSeek v4, з подальшими оптимізаціями на черзі

Розпродаж дня

Подальше читання

„Я виробляю найдешевші токени у світі“, – каже генеральний директор NVIDIA, підкреслюючи комплексний підхід до ШІ

NVIDIA хоче, щоб усі переосмислили TCO ШІ та пояснює, чому „вартість за токен“ є єдиною метрикою, яка має значення

Intel розкриє повні деталі революційного проєкту TeraFab Ілона Маска, який змінить індустрію виробництва мікросхем

NVIDIA RTX PRO 4500 Blackwell Server Edition містить понад 10 тисяч ядер і 32 ГБ пам’яті GDDR7 в одному слоті

Залишити відповідьСкасувати відповідь