NVIDIA Blackwell Ultra GB300: Як вони підкорюють AI-обчислення для DeepSeek з довгим контекстом

NVIDIA Blackwell Ultra GB300: Як вони підкорюють AI-обчислення для DeepSeek з довгим контекстом 1

Серверні стійки NVIDIA GB300 NVL72 з архітектурою Blackwell пройшли тестування на останніх моделях з відкритим кодом від DeepSeek. Оптимізоване виведення (inference) та доналаштування (fine-tuning) демонструють надзвичайно перспективні результати.

Blackwell Ultra від NVIDIA випереджає GB200 NVL72 до 1.5 разів у робочих навантаженнях, чутливих до затримок

Основний фокус NVIDIA з GB300 — це забезпечення оптимальної продуктивності для обробки довгих контекстів, що є ключовим для хвилі агентного ШІ. Раніше ми обговорювали, як Blackwell Ultra забезпечує 50-кратне збільшення пропускної здатності на мегават порівняно з GPU Hopper завдяки підходу глибокої спільної розробки (co-design). Тепер Large Model Systems Organization (LMSYS) протестувала GB300 NVL72 для виведення довгих контекстів, і результати виглядають надзвичайно обнадійливими. Тестування включає оптимізацію програмного забезпечення на рівні інфраструктури, яку ми обговоримо далі.

Враховуючи, що у робочих навантаженнях з довгим контекстом основний тиск лягає на VRAM відеокарти, команда LMSYS інтегрувала PD (Prefill-Decode) Disaggregation – широко використовуваний механізм для підтримки великомасштабного контексту токенів. Простими словами, з PD Disaggregation робота розподіляється між різними апаратними “вузлами” для уникнення вузьких місць. Фаза попереднього заповнення (prefill), яка, по суті, є обробкою запиту, та фаза декодування (decode), яка генерує токени, стають значно більш оптимізованими завдяки розподілу, що призводить до покращення пропускної здатності у масштабі.

NVIDIA Blackwell Ultra GB300: Як вони підкорюють AI-обчислення для DeepSeek з довгим контекстом 2

Команда LMSYS також застосувала кілька інших технік оптимізації, включаючи динамічне сегментування (dynamic chunking) для оптимізації відповідей на запити в межах довгих контекстних вікон та ефективне перетворення ємності KV (KV capacity translation). Щодо покращень нового покоління, команда відзначила наступні основні показники: аналіз пропускної здатності, ємність та співвідношення затримок.

NVIDIA GB300 NVL72 проти GB200 NVL72:

  • Пікова пропускна здатність у 1.53 рази вища: 226.2 TPS/GPU (токенів за секунду).
  • Швидкість користувача у 1.87 рази вища: Значний стрибок у TPS/User завдяки MTP (Multi-Token Prediction).
  • Перевага у затримці у 1.58 рази.

За даними команди LMSYS, GB300 в середньому випереджає GB200 на 1.4x – 1.5x, особливо в сценаріях, чутливих до затримок. З огляду на фокус на агентних робочих навантаженнях, Blackwell Ultra найкраще підходить для їх реалізації. Хоча Blackwell Ultra, безперечно, домінує за показниками затримки та пропускної здатності, показники TCO (Total Cost of Ownership) поки що не обговорювалися в індустрії, особливо враховуючи, що з GB300 паралельно зростають і витрати на розгортання.

NVIDIA Blackwell Ultra GB300: Як вони підкорюють AI-обчислення для DeepSeek з довгим контекстом 3

Підхід NVIDIA з кожним новим поколінням, схоже, спрямований не лише на архітектурні вдосконалення, а й на усунення специфічних для галузі обмежень. У випадку Blackwell Ultra, показники затримки зазнали значних покращень. Це одна з причин, чому в агентних середовищах GB300 стає провідним вибором для гіперскейлерів та неохмар.

Чи варто купувати? (Порада ІТ-Блогу): NVIDIA GB300 NVL72 демонструє значний стрибок продуктивності та зниження затримок порівняно з попереднім поколінням, що робить його надзвичайно привабливим для передових завдань ШІ, особливо там, де важлива швидкість реагування. Однак, висока вартість розгортання може бути стримуючим фактором. Для великих підприємств, що працюють з агентним ШІ та потребують максимальної ефективності, це, ймовірно, найкращий вибір на ринку, незважаючи на ціну.

Оригінал статті: wccftech.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *