MiniMax розкриває M3: Революційна швидкість реагування завдяки новій розрідженій увазі

Серед численних китайських компаній та лабораторій, що працюють над штучним інтелектом і прагнуть зайняти місце на глобальному ринку, MiniMax виділяється своєю відданістю наданню інтелекту передового рівня в різних модальностях, включаючи текст, код і відео (через свою серію моделей Hailuo). Часто це відбувається під стандартними відкритими ліцензіями, дружніми до підприємств.

Нині MiniMax знову привертає увагу користувачів та розробників ШІ по всьому світу, випустивши новий, глибокий технічний звіт про створення своєї популярної серії мовних моделей M2 (M2, M2.5 та M2.7). Документ проливає світло на численні інженерні інновації та влучні підходи компанії. Водночас, компанія та її керівники натякнули на абсолютно новий підхід із розрідженою увагою (sparse attention) для майбутньої серії моделей MiniMax M3. За словами розробників, цей підхід забезпечує до 15,6 разів швидше декодування (або відповідь мовної моделі) при роботі з довгими контекстами (до мільйона токенів) завдяки використанню спеціальної субквадратичної структури. Таким чином, MiniMax розробила M3, щоб зробити розгортання ШІ-агентів з ультрадовгим контекстом економічно вигідним.

Звіт про M2 є надзвичайно цінним для будь-якого підприємства, що працює з моделями ШІ, особливо для тих, хто прагне доопрацьовувати та навчати власні внутрішні рішення. Адже моделі серії M2 від MiniMax часто демонстрували найкращі світові показники у тестах для відкритих моделей ШІ на момент їх випуску.

Хоча ці показники згодом були перевершені кількома іншими китайськими лабораторіями, зокрема DeepSeek та Xiaomi, новий звіт MiniMax пропонує план, який може бути використаний підприємствами по всьому світу для покращення продуктивності моделей ШІ та агентів.

Як зазначила Адіна Якуп з Hugging Face у мережі X, «Крім бенчмарків, вони провели справді солідну роботу над ефективністю MoE та дизайном, орієнтованим на агентів. Цікаво побачити, куди рухатиметься M3 далі!»

Дилема уваги

Основна технічна архітектура серії M2 базується на розрідженій архітектурі Mixture-of-Experts (MoE) з декодером, що використовується багатьма іншими сучасними великими мовними моделями.

Фундаментальна основа містить загалом 229,9 мільярда параметрів, але при цьому зберігає надзвичайно низький робочий відбиток, активуючи лише 9,8 мільярда параметрів на токен завдяки 256 експертам з дрібним налаштуванням.

Однак, для оптимізації маршрутизації та уникнення стандартних проблем балансування навантаження, MiniMax впровадила сигмоїдне гейтування (sigmoid gating) у поєднанні з навчаними, специфічними для експертів зміщеннями (bias terms), що значно зменшує залежність від обмежувальних допоміжних втрат.

Найважливішим інженерним рішенням, задокументованим у статті про M2, було суворе дотримання повноцінної багатошарової уваги (multi-head attention) з груповою увагою запитів (Grouped Query Attention, GQA) у всіх 62 шарах.

У великих мовних моделях «квадратичне масштабування» (quadratic scaling) означає обчислювально дорогий факт роботи стандартних механізмів повноцінної уваги, де кожен токен у послідовності повинен математично зв’язатися з кожним іншим токеном. Якщо провести аналогію з реального життя, це схоже на відвідування нетворкінгу, де вас змушують вести глибоку розмову з кожною людиною в кімнаті, одночасно відстежуючи всі інші розмови.

Хоча такий підхід забезпечує надзвичайно ретельне опрацювання контексту, обчислювальні потужності та пам’ять, що вимагаються, вибухово зростають пропорційно квадрату довжини вхідних даних, створюючи серйозний апаратний вузький прохід, коли моделі намагаються обробити сотні тисяч слів.

Проблема субквадратичного масштабування

«Субквадратичне» масштабування (sub-quadratic scaling) вводить архітектурні скорочення, призначені для обходу цього експоненціального обчислювального навантаження. Замість того, щоб відображати всі можливі зв’язки, субквадратичні методи — такі як ковзна увага (Sliding Window Attention) або стиснена лінійна увага — можуть аналізувати лише локалізоване вікно сусідніх слів або генерувати стиснений підсумок ширшого тексту.

Ці ефективні методи значно знижують витрати на обладнання та дозволяють моделям обробляти величезні документи з високою швидкістю, але історично вони призводять до серйозних компромісів у точності, часто змушуючи ШІ пропускати «велику картину» або втрачати відстеження віддаленого контексту.

Ця математична дилема визначає архітектурну еволюцію від M2 від MiniMax до майбутньої серії M3. Під час розробки M2 дослідники ретельно тестували субквадратичні скорочення, але виявили, що вони руйнують «багатокрокове міркування» моделі — її здатність пов’язувати розрізнені докази в довгому документі, змушуючи команду взяти на себе величезні обчислювальні витрати повноцінної квадратичної уваги для збереження інтелекту передового рівня.

Справді, вони агресивно тестували ефективні альтернативи уваги під час попереднього навчання, але навмисно відкинули їх. Вони широко експериментували з гібридними конфігураціями, чергуючи повноцінну увагу з субквадратичними архітектурами, такими як Lightning Attention, або гібридними конфігураціями ковзної уваги (SWA).

Емпіричні результати були однозначними: при більшому масштабуванні лінійні та віконні варіанти уваги демонстрували серйозні дефіцити в міркуваннях.

На тестах з контекстними вікнами понад 32 тисячі токенів варіанти SWA показали значно гірші результати, ніж повноцінна увага, знизившись з базового показника 90,0 до 72,0 на завданні вилучення складних слів RULER 128K.

Субквадратичні конфігурації виявилися схильними до обмежень, пов’язаних з пам’яттю, під час навчання, не мали нативної підтримки кешування префіксів і не змогли плавно інтегруватися з модулями Multi-Token Prediction (MTP), що використовуються для спекулятивного декодування. Повноцінна увага була визнана необхідною для збереження можливості багатокрокового міркування.

Однак, усвідомлюючи, що фізичні обмеження апаратного забезпечення не можуть нескінченно підтримувати квадратичне масштабування, MiniMax проєктує серію M3 на основі нової субквадратичної архітектури, щоб нарешті забезпечити як високу швидкість обробки, так і нескомпрометовані міркування.

MiniMax Sparse Attention (MSA) та субквадратичне масштабування

Майбутня MiniMax-M3 відривається від обтяжливих для обчислень обмежень свого попередника. Як розкрила інженерна команда MiniMax під гаслом «Наближається щось ВЕЛИКЕ», M3 представляє «MiniMax Sparse Attention» (MSA).

На відміну від Multi-head Latent Attention (MLA) від DeepSeek, яка стискає ключі та значення у простір низької розмірності, MSA працює на стандартній базі GQA, але використовує вибір блоків на реальних, нестиснутих ключах та значеннях (Key-Value, KV).

Елі Бакуч з Prime Intellect, лабораторії, що займається інфраструктурою та платформами для навчання ШІ, написав у X, що основні зміни включають «вибір на рівні блоків, як у CSA, але увага приділяється реальним KV, а не [стиснутому просторі]».

Це вирішує проблеми втрати точності та кешування префіксів, зазначені в статті про M2. Динамічно фільтруючи та вибираючи послідовності на рівні блоків, MSA забезпечує архітектурний стрибок: початкове тестування обладнання вказує на 9,7-кратне прискорення затримки попереднього заповнення (prefilling latency) та величезне 15,6-кратне прискорення під час фази декодування при довжині послідовності 1 мільйон токенів порівняно з архітектурою M2 з повною увагою.

Щоб зрозуміти, чому прискорення у «фазі декодування» є таким значущим, корисно розбити процес читання та запису інформації штучним інтелектом. Коли ви взаємодієте з ШІ, обробка відбувається у два чіткі етапи: попереднє заповнення (prefilling) та декодування (decoding).

Коли ви надаєте ШІ запит — будь то коротке речення або величезний 1000-сторінковий документ — він обробляє весь цей фрагмент тексту одночасно паралельно, що називається «попереднім заповненням». Він, по суті, «читає» вхідні дані одним великим ковтком, щоб сформувати початкове розуміння та встановити контекст.

Щоб згенерувати відповідь, ШІ повинен перейти у «фазу декодування». Щоб передбачити перше слово своєї відповіді, він дивиться на запит. Щоб передбачити друге слово, він повинен дивитися на запит *плюс* перше слово. Щоб передбачити соте слово, він повинен перерахувати контекст запиту *та* попередніх 99 слів, які він щойно написав. Таким чином, з кожним наступним кроком відповідь стає складнішою для генерації, а кінцева частина вимагає повного перегляду всіх попередніх частин.

Для неспеціаліста уявіть, що ви читаєте щільний юридичний документ (попереднє заповнення), а потім вас змушують написати звіт-підсумок, де перед написанням кожного нового слова вам доводиться швидко перечитувати весь документ та все, що ви вже написали, щоб переконатися, що ваше наступне слово має сенс (декодування).

Оскільки ШІ повинен постійно і повторно озиратися назад, щоб генерувати кожен новий крок вперед, фаза декодування є найсерйознішим обчислювальним вузьким місцем у генерації тексту. Саме тому моделі ШІ часто виписують свої відповіді слово за словом, і саме тому вони значно сповільнюються, коли розмови стають довшими.

Отже, коли в тексті зазначено, що нова архітектура досягає величезного 15,6-кратного прискорення під час фази декодування при довжині послідовності 1 мільйон токенів, це означає, що модель знайшла структурне скорочення для генерації своєї відповіді — токен за токеном — майже в 16 разів швидше. Це безпосередньо вирішує саме вузьке місце, яке зазвичай змушує чат-ботів із ШІ застигати або заїкатися при роботі з величезними обсягами інформації.

Еволюція серії MiniMax M та створення «Forge»

На продуктовому рівні MiniMax послідовно еволюціонувала свої моделі від простих інтерфейсів генерації тексту до автономних робочих агентів.

Серія M2 піонерувала протокол «чергування мислення» (interleaved thinking), де модель чергує природно-мовні траси планування та явні виклики інструментів у межах однієї траєкторії. Замість того, щоб пропускати проміжні блоки ланцюжка думок (chain-of-thought) між кроками виконання, M2 додає всю історію мислення безпосередньо до контексту розмови. Така стійкість планування запобігає дрейфу стану, дозволяючи моделі граціозно відновлюватися після помилок виконання та переглядати свої стратегії на основі зворотного зв’язку від середовища.

Для навчання цих довготривалих робочих процесів MiniMax створила «Forge» — масштабовану систему навчання з підкріпленням (reinforcement learning) на основі агентів. Forge розділяє виконання на три незалежні модулі: Агентний бік, рівень абстракції проміжного програмного забезпечення (Gateway Server та Data Pool) та модулі навчання/виведення (Training/Inference engines).

Як пояснила інженер MiniMax Олів Сонг у подкасті ThursdAI, «Ми зрозуміли, що існує величезний потенціал у такої маленької моделі, якщо ми навчаємо її з підкріпленням на великій кількості середовищ та агентів… Але це не дуже легко зробити», додавши, що саме на цьому етапі навчання середовища команда витратила значну частину свого часу розробки. Щоб впоратися з екстремальною варіативністю довжини траєкторії, типовою для багатоетапних середовищ агентів, Forge впроваджує два важливі інженерні рішення:

Планування FIFO з вікнами: Планувальник навчання, який створює ковзне вікно над чергою генерації. Він дозволяє жадібно, з високою пропускною здатністю витягувати завершені завдання в межах вікна, щоб запобігти простою кластера, суворо дотримуючись меж FIFO для підтримки стабільності розподілу та уникнення коливань градієнта.
Об’єднання префіксних дерев: Оптимізація, яка реструктуризує пакетне навчання у обчислення дерева. Завершення, що мають однакові префікси розмови, обчислюються рівно один раз під час прямого проходу перед розгалуженням. Це усуває надлишкові обчислення, забезпечуючи прискорення навчання до 40 разів без жодної похибки наближення.

Ця інфраструктура навчання з підкріпленням безпосередньо породила контрольний пункт M2.7, рухаючи серію до «само еволюції». Працюючи в автоматизованому середовищі агентів, M2.7 функціонує як незалежний інженер машинного навчання. Модель профілює власні активні тренувальні прогони, діагностує аномалії, читає журнали та автоматично модифікує власний код та конфігурації.

За даними MiniMax, M2.7 успішно впоралася з 30% до 50% власних робочих процесів розробки.

У суворому наборі тестів MLE Bench Lite від OpenAI, який перевіряє можливості автономних досліджень у галузі машинного навчання, M2.7 досягла 66,6% медалей у незалежних 24-годинних випробуваннях, фактично зрівнявшись з рішенням Google Gemini 3.1 Pro із закритим кодом.

Постійна динаміка від M2 до M2.5, яка, як відомо, виконала 30% внутрішніх завдань та 80% нового коду, що надходив до MiniMax HQ, підкреслює ширше бачення.

Як зазначила команда MiniMax на етапі розгортання, «ми віримо, що M2.5 надає практично необмежені можливості для розробки та експлуатації агентів в економіці».

З технічним звітом, що кодифікує успіхи покоління M2, та технічним блогом MSA, що наближається, MiniMax сигналізує, що наступний рубіж ШІ — це явне перетворення мінімальної активації на максимальний реальний інтелект.

Прогноз ІТ-Блогу: MiniMax M3, завдяки своїй інноваційній підсистемі Sparse Attention, ймовірно, значно змінить ландшафт роботи з довгими контекстами, роблячи складні ШІ-агенти доступнішими та економічно вигідними. Це може прискорити інтеграцію потужних ШІ-рішень у нові галузі, де обробка великих обсягів даних була раніше непрактичною.

За даними порталу: venturebeat.com

Дилема уваги

Проблема субквадратичного масштабування

MiniMax Sparse Attention (MSA) та субквадратичне масштабування

Еволюція серії MiniMax M та створення «Forge»

Залишити відповідьСкасувати відповідь