MiniMax-M3 випереджає GPT-5.5 та Gemini 3.1 Pro: новий лідер продуктивності за мізерну ціну

AI-моделі: Новий виток у розвитку генеративного ШІ

Китайський стартап MiniMax нещодавно представив свою нову флагманську мовну модель M3, яка обіцяє змінити правила гри у сфері корпоративного штучного інтелекту. Ця модель поєднує передові можливості кодування та агентної роботи з безпрецедентним контекстним вікном у 1 мільйон токенів та нативною мультимодальністю. При цьому вартість її використання значно нижча за провідні пропрієтарні моделі, починаючи лише з $20 на місяць за новими тарифними планами. Компанія також анонсувала плани щодо випуску моделі під ліцензією з відкритим вихідним кодом, включаючи “відкриті ваги” (open weights), що дозволить підприємствам завантажувати та кастомізувати її безкоштовно протягом наступних 10 днів. Наразі модель доступна через API MiniMax за спеціальною зниженою ціною – $0.3 за 1 мільйон вхідних токенів і $1.20 за мільйон вихідних токенів (при використанні кешу) протягом тижня. Це значно вигідніше, ніж пропозиції американських гігантів, таких як Google, OpenAI та Anthropic, і навіть перевищує показники останніх моделей від Google і OpenAI за окремими бенчмарками. Навіть за повною вартістю ($0.6/$2.40 за мільйон вхідних/вихідних токенів) MiniMax-M3 залишається на 8-20% дешевшою за провідні пропрієтарні моделі зі США.

Традиційний вибір: закритий чи відкритий

Донедавна розробка великих мовних моделей диктувала чіткий вибір: або доступ до елітних закритих моделей через обмежені API, або використання гнучких, економічно ефективних відкритих моделей, які поступалися у багатоетапному аналізі, складних завданнях кодування та обробці величезних послідовностей даних. MiniMax-M3 фундаментально руйнує цю парадигму, об’єднуючи ці дві раніше розділені передові можливості. Це забезпечує комплексний функціонал, раніше доступний лише у дорогих закритих екосистемах, одночасно підвищуючи стандарт систем з відкритими вагами та мінімізуючи обчислювальні ресурси, необхідні для складних завдань.

Знімок цін на API моделей Frontier від VentureBeat

| Модель | Вхідні токени | Вихідні токени | Загальна вартість | Джерело | | :——————— | :———— | :———— | :———————- | :————– | | MiMo-V2.5 Flash | $0.10 | $0.30 | $0.40 | Xiaomi MiMo | | deepseek-v4-flash | $0.14 | $0.28 | $0.42 | DeepSeek | | deepseek-v4-pro | $0.435 | $0.87 | $1.305 | DeepSeek | | **MiniMax-M3** | **$0.30** | **$1.20** | **$1.50 (обмежений час)** | **MiniMax** | | Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 | Google | | MiMo-V2.5 | $0.40 | $2.00 | $2.40 | Xiaomi MiMo | | Grok 4.3 low context | $1.25 | $2.50 | $3.75 | xAI | | GLM-5 | $1.00 | $3.20 | $4.20 | Z.ai | | Kimi-K2.6 | $0.95 | $4.00 | $4.95 | Moonshot/Kimi | | GLM-5.1 | $1.40 | $4.40 | $5.80 | Z.ai | | Grok 4.3 high context | $2.50 | $5.00 | $7.50 | xAI | | Qwen3.7-Max | $2.50 | $7.50 | $10.00 | Alibaba Cloud | | Gemini 3.5 Flash | $1.50 | $9.00 | $10.50 | Google | | Gemini 3.1 Pro Preview ≤200K | $2.00 | $12.00 | $14.00 | Google | | GPT-5.4 | $2.50 | $15.00 | $17.50 | OpenAI | | Gemini 3.1 Pro Preview >200K | $4.00 | $18.00 | $22.00 | Google | | Claude Opus 4.8 | $5.00 | $25.00 | $30.00 | Anthropic | | GPT-5.5 | $5.00 | $30.00 | $35.00 | OpenAI |

Нова техніка MiniMax Sparse Attention (MSA) знижує вартість моделі

Ключовим елементом ефективності моделі є відхід від класичних архітектур Transformer. Стандартні механізми уваги мають квадратичну залежність ($O(N^2)$), що призводить до експоненційного зростання обчислювальних та фінансових витрат зі збільшенням довжини вхідних даних. Для подолання цього “природженого недоліку” команда розробників впровадила MiniMax Sparse Attention (MSA) – чистий, масштабований шаблон розрідженої уваги. Якщо уявити повну увагу як редактора, що перечитує всю бібліотеку для перевірки одного речення, то MSA діє як *інтелектуальний індексатор*, що використовує фазу попередньої фільтрації для точного розділення матриць Key-Value (KV). На рівні операцій MSA застосовує підхід “KV outer gather Q”. Система розглядає блоки KV як зовнішній цикл, динамічно агрегуючи лише ті запити, що відповідають їм. Оскільки кожен блок даних обробляється один раз, а доступ до пам’яті залишається строго послідовним, використання обладнання значно зростає. За внутрішніми тестами, MSA працює більш ніж у 4 рази швидше за альтернативні відкриті рішення, такі як Flash-Sparse-Attention або flash-moba. При обробці максимального контексту в 1 мільйон токенів, потреба M3 в обчислювальних потужностях на токен знижується до 1/20 від попереднього покоління, що призводить до 9-кратного прискорення на етапі попереднього заповнення та 15-кратного зростання продуктивності під час декодування.

Нативна мультимодальність

Замість того, щоб об’єднувати попередньо навчену текстову мережу з окремою моделлю зору, MiniMax розробив M3 як нативно мультимодальну систему “з нуля”. Компанія переробила механізми прийому даних, щоб інтегрувати природно перемішані послідовності тексту, зображень та візуальних елементів, масштабувавши загальний корпус попереднього навчання до понад 100 трильйонів токенів. Це глибоке узгодження даних дозволяє моделі перетворювати складні візуальні структури, такі як діаграми чи карти координат, у структурований код без втрати контекстної точності. M3 підтверджує ефективність цього підходу на стандартизованих тестах.

Бенчмарки та порівняння

Модель демонструє вражаючі результати: 59.0% на SWE-Bench Pro (метрика автономних агентів), що виводить її вище за закриті моделі, такі як GPT-5.5 та Gemini 3.1 Pro. Вона також досягає 66.0% на Terminal Bench 2.1, 74.2% на MCP Atlas та 83.5% на BrowseComp, перевершуючи показник Claude Opus 4.7 (79.3%) у автономному браузингу та пошуку інформації.

MiniMax-M3 випереджає GPT-5.5 та Gemini 3.1 Pro: новий лідер продуктивності за мізерну ціну 1

Однак, порівняно з новою преміальною моделлю Anthropic, Claude Opus 4.8, M3 поступається за результатами на складних агентних бенчмарках. На SWE-Bench Pro, де оцінюється модифікація коду, показник M3 (59.0%) нижчий за лідерство Opus 4.8 (69.2%). Подібна розбіжність спостерігається і в автоматизованих системних середовищах за Terminal-Bench 2.1: 66.0% M3 майже дорівнює попередньому поколінню Opus 4.7 (66.1%), але поступається оновленій архітектурі Opus 4.8 (74.6%). Взаємодія з графічним інтерфейсом користувача в пісочниці OSWorld-Verified показує 70.0% для M3 проти 83.4% для Opus 4.8. Ці результати ілюструють структурні компроміси, що визначають поточний стан екосистеми: закриті системи, як Opus 4.8, зберігають перевагу в складних логічних задачах, тоді як M3 забезпечує високу якість локальних автоматизованих операцій без додаткових витрат на закриті API. Порівняно з іншою моделлю з відкритими вагами, DeepSeek-V4 Pro Max, M3 демонструє схожі результати в ключових агентних категоріях, з незначною перевагою в синтезі специфічного коду. На SWE-Bench Pro M3 (59.0%) випереджає DeepSeek-V4 Pro Max (55.4%). Однак у командному рядку DeepSeek-V4 Pro Max має невелику перевагу (67.9% проти 66.0% у M3). У веб-оркестрації та симуляції браузингу обидві моделі демонструють статистичну паритетність: 83.5% для M3 проти 83.4% для DeepSeek на BrowseComp. На платформі MCP Atlas M3 також трохи випереджає (74.2% проти 73.6%). Ці дані свідчать, що хоча DeepSeek використовує величезний обсяг параметрів (1.6 трлн) для складних завдань, механізм розрідженої уваги MiniMax забезпечує конкурентоспроможну ефективність без потреби в масштабному розширенні параметрів.

Агент MiniMax Code: можливості команди агентів

MiniMax реалізує архітектурні переваги своєї моделі через оновлений набір продуктів, що включає окремі додатки, кастомізовані тарифні плани та інфраструктуру для розробників. Флагманським продуктом для кінцевих користувачів є MiniMax Code – агент ШІ, розроблений для максимального використання багатоетапних можливостей M3. Працюючи через веб-інтерфейс або настільні додатки, MiniMax Code керує “Командою агентів”, здатних розбивати масштабні інженерні завдання на багатоетапні паралельні робочі процеси. Система використовує цикл “Виробник + Верифікатор” для змагального аналізу. Один агент генерує код, а інший екстремально тестує та аналізує результати виконання, дозволяючи мережі самокоригуватися та працювати автономно протягом днів без нагляду людини. Завдяки нативному візуальному розумінню, MiniMax Code підтримує пряме використання комп’ютера. Розробник може надати голосову команду через телефон, щоб модель відкрила корпоративний ERP-клієнт і заповнила таблиці даних безпосередньо з відкритого файлу Excel. Для індивідуальних налаштувань розробники можуть інтегрувати M3 безпосередньо в існуючі робочі процеси за допомогою API-ключа (sk-cp), сумісного з популярними середовищами розробки, такими як Claude Code, Cursor, Roo Code та Cline. API має функцію “режиму роздумів”. При активації M3 спрямовує обчислювальні потужності на глибокий аналіз та довгострокове планування; при вимкненні модель працює з мінімальною затримкою для швидкого завершення тексту.

Тарифний план Token Plan: агресивна цінова стратегія

Тарифні плани, що сплачуються щорічно, пропонують такі варіанти: * **Plus ($20/місяць):** Надає приблизно 1.7 мільярда токенів на місяць та підтримує 3-4 одночасних агенти. * **Max ($50/місяць):** Надає приблизно 5.1 мільярда токенів на місяць, керує 4-5 одночасними агентами та включає 3 автоматизованих відеокліпи на день за допомогою Hailuo 2.3. * **Ultra ($120/місяць):** Надає приблизно 9.8 мільярда токенів на місяць, забезпечує роботу 6-7 одночасних агентів та збільшує кількість відеокліпів до 5 на день.

Відкриті ваги M3 роблять модель привабливішою для підприємств

Зобов’язання MiniMax випустити M3 під ліцензією з відкритими вагами, з вагою та технічною документацією, що з’являться на HuggingFace та GitHub протягом 10 днів, має значну стратегічну вагу для менеджерів корпоративної інфраструктури. Однак, точна ліцензія (MIT, Apache 2.0 чи нова OpenMDW) та її придатність для комерційного використання ще не визначені. Якщо вона буде дозволеною, розрахунок виглядає так: | Характеристика / Атрибут моделі | Постачальники закритих API (напр., GPT-5.5, Opus 4.7) | Frontier з відкритими вагами (MiniMax M3) | | :———————————- | :—————————————————- | :—————————————- | | **Конфіденційність даних та межі** | Потребує зовнішніх API-запитів; потенційні вектори для вводу даних. | Повна локальна ізоляція; працює виключно всередині приватних кластерів користувача. | | **Кастомізація та оптимізація** | Обмежена базовими обгортками для fine-tuning або prompt engineering. | Повний контроль над процесом; архітектура дозволяє глибоку кастомізацію адаптерів/ваг. | | **Послідовність витрат** | Залежить від постійних API-цін за токен. | Обчислювальні потреби зменшені до 1/20; мінімізує апаратні обмеження. | Надаючи ваги моделі безпосередньо спільноті, MiniMax відходить від закритого підходу, якому віддають перевагу великі американські AI-лабораторії. Для корпоративних користувачів, які дотримуються суворих правил відповідності та конфіденційності, відкриті ваги означають можливість запуску M3 локально на власному обладнанні. Це повністю усуває ризик витоку даних, пов’язаний з публічними API. Крім того, це дозволяє інженерним командам проводити власні тренування fine-tuning, модифікувати внутрішні архітектури або вбудовувати специфічні системні промпти глибоко в шари моделі, перетворюючи стандартну систему на високоспеціалізований пропрієтарний актив.

Початкова реакція спільноти: переважно позитивна

Спільнота розробників відразу відреагувала на операційні бенчмарки M3, відзначивши її довгострокову автономну роботу та співвідношення ціни та продуктивності. Одним із головних об’єктів обговорень стала 12-годинна автоматизована тестова перевірка, в рамках якої M3 мала відтворити роботу, що була відзначена на ICLR 2025 як Outstanding Paper Award, під назвою “Learning Dynamics of LLM Finetuning”. Як зазначив дослідник MiniMax @MikaStars39 у X: > “M3 працювала автономно майже 12 годин, самостійно створивши 18 комітів та 23 експериментальні діаграми, і досягла успіху в ключових експериментах: > > * Вона відповідала прогнозованим тенденціям ймовірності на етапі SFT. > * Чітко спостерігався ефект стиснення, центральний для експериментів DPO. > * Був перевірений метод пом’якшення Extend, запропонований в оригінальній статті.” Водночас, творці інструментів для розробників відзначили практичні економічні переваги нового механізму уваги моделі. Офіційна команда агентного AI-кодинг-ханесу Cline опублікувала повідомлення, підтверджуючи сумісність з першого дня: > “Нова MiniMax-M3 – це перша модель з контекстом 1 мільйон токенів, мультимодальністю та можливостями агентного кодування. Вітаємо @MiniMax_AI з проривом у архітектурі розрідженої уваги, що знизила обчислювальні витрати до 1/20 порівняно з попереднім поколінням.” Таке значне зниження витрат на виконання змінює уявлення розробників про зв’язок між фінансовими інвестиціями та можливостями. Технологічний коментатор @jumperz описав це як руйнування історичної моделі ціноутворення в машинному навчанні: “Завдяки вирішенню обмежень масштабування контексту шляхом фундаментальних оптимізацій на рівні уваги, а не грубої сили апаратного масштабування, MiniMax встановив високоефективний стандарт для відкритих систем. M3 демонструє, що наступний етап розвитку агентів буде визначатися не лише більшими наборами даних, але й ефективними архітектурними рішеннями, які зроблять передові можливості доступними для ширшої спільноти відкритих систем.” Для підприємств, що будують автономну розробку програмного забезпечення або агентну інфраструктуру, **MiniMax M3 пропонує найкраще співвідношення ціни та якості (“bang for the buck”)**. Хоча DeepSeek-V4 Pro має незначну цінову перевагу ($0.195 за мільйон токенів), MiniMax M3 виправдовує свою незначну премію, забезпечуючи вищі показники роздільної здатності в автономному програмному інжинірингу (59.0% SWE-Bench Pro). Що ще важливіше, оскільки M3 є моделлю з відкритими вагами, розрахунок виходить далеко за межі порівняння API. Розгортаючи ваги M3 локально всередині приватних корпоративних хмар, організації повністю уникають відстеження вихідних даних хмари, усувають структурну залежність від постачальника та можуть впроваджувати власні моделі пре-кешування на внутрішньому обладнанні. Цей технічний підхід перетворює високоефективний бюджет виконання на постійний, приватно належний корпоративний актив.

Прогноз ІТ-Блогу: Впровадження MiniMax M3 як моделі з відкритими вагами, що пропонує передові мультимодальні можливості та велике контекстне вікно за доступною ціною, ймовірно, прискорить перехід корпорацій від закритого програмного забезпечення до локальних, кастомізованих рішень. Це може призвести до появи нових нішевих продуктів та послуг, заснованих на гнучкості та контролі, які надає відкритий ШІ, потенційно змінюючи баланс сил на ринку корпоративних AI-рішень.

Інформація підготовлена на основі матеріалів: venturebeat.com