Xiaomi MiMo-V2.5 та V2.5-Pro: Ефективні та доступні застосунки для "кігтя" завдань

Компанія Xiaomi, відома насамперед своїми смартфонами та електромобілями, останнім часом випускає надзвичайно доступні та потужні відкриті великі мовні моделі зі сфери штучного інтелекту.

Ця тенденція продовжилася сьогодні з випуском Xiaomi MiMo-V2.5 та Xiaomi MiMo-V2.5-Pro, обидві доступні під ліцензією MIT, що є сприятливою для бізнесу. Це робить їх придатними для комерційного використання у виробничих процесах. Підприємства та індивідуальні розробники тепер можуть завантажувати будь-яку з цих моделей (та інші відкриті рішення від Xiaomi) безпосередньо з Hugging Face, модифікувати їх за потреби та запускати локально або на віртуальних приватних хмарах.

Найбільш помітною особливістю цих моделей, окрім ліцензування з відкритим кодом, є те, що, згідно з опублікованими Xiaomi тестами, вони є одними з найефективніших для агентських завдань типу “клешня” (agentic “claw” tasks). Тобто, вони забезпечують роботу таких систем, як OpenClaw, NanoClaw та Hermes Agent, де користувачі можуть безпосередньо взаємодіяти з ними через сторонні месенджери, а агенти самостійно виконуватимуть завдання від імені користувача, такі як створення та публікація маркетингового контенту, управління обліковими записами, організація електронної пошти та планування.

Xiaomi MiMo-V2.5 та V2.5-Pro: Ефективні та доступні застосунки для "кігтя" завдань 2

Як показує діаграма тесту ClawEval від Xiaomi, обидві моделі, MiMo-V2.5 та особливо її Pro-версія, розташовані у верхній лівій частині графіка, що свідчить про високу продуктивність у виконанні тестових завдань “клешня” при мінімальному використанні токенів. Це заощаджує кошти користувача, особливо в умовах, коли все більше сервісів, таких як GitHub Copilot від Microsoft, переходять на оплату за використання (стягуючи плату з користувача за кожен використаний токен), на відміну від обмежень швидкості, як у Anthropic, або підписок “все, що ви можете з’їсти”, як у OpenAI.

Насправді, Pro-модель демонструє лідерство серед відкритих рішень з показником успішності 63,8%, використовуючи лише близько 70 тис. токенів на траєкторію.

Це приблизно на 40–60% менше токенів, ніж потрібно Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro та OpenAI GPT-5.4 для досягнення порівнянних результатів.

Поєднуючи величезну архітектуру з 310 мільярдами параметрів, високоенергоефективний “активний” слід та нативний контекстний вікно обсягом 1 мільйон токенів, Xiaomi MiMo кидає виклик домінуванню закритих передових моделей від Google та OpenAI, особливо в контексті останньої тенденції в корпоративних розгортаннях ШІ — агентських завдань та “клешень”, подібних до OpenClaw.

Двостороння клешня

Xiaomi випустила дві різні версії моделі для різних потреб розробників: MiMo-V2.5 (“Omni” — мультімодальний спеціаліст) та MiMo-V2.5-Pro (“Agent” — агентський спеціаліст).

Якщо базова модель забезпечує нативну мультімодальність, то MiMo-V2.5-Pro спеціально розроблена для “довготривалої узгодженості” та складного програмного інжинірингу.

За тестом GDPVal-AA (Elo) Pro-модель отримала 1581 бал, перевершивши таких конкурентів, як Kimi K2.6 та GLM 5.1.

Xiaomi MiMo-V2.5 та V2.5-Pro: Ефективні та доступні застосунки для "кігтя" завдань 3

Дослідники Xiaomi також надали дані про кілька високоскладних завдань, виконаних автономно моделлю V2.5-Pro:

Компілятор SysY на Rust: Модель реалізувала повний компілятор з нуля, включаючи лексер, парсер та бекенд для RISC-V. Це зайняло 4,3 години та вимагало 672 виклики інструментів. Модель досягла ідеального результату 233/233 у прихованих тестових наборах — завдання, яке зазвичай займає у студента комп’ютерних наук кілька тижнів.
Повнофункціональний відеоредактор: Протягом 11,5 годин та з 1 868 викликами інструментів модель створила десктопну програму обсягом 8 192 рядки коду, що включала багатодоріжкові часові шкали та конвеєр експорту.
Оптимізація аналогових EDA: У рамках інженерного завдання рівня магістратури модель оптимізувала регулятор Flipped-Voltage-Follower (FVF-LDO) у процесі TSMC 180 нм. Шляхом циклів симуляції ngspice модель покращила такі показники, як регулювання напруги, у 22 рази порівняно з першою спробою.

Ці експерименти підкреслюють “обізнаність у використанні інструментів” (harness awareness) у V2.5-Pro, де модель активно керує власною пам’яттю та формує свій контекст для підтримки узгодженості протягом тисяч послідовних викликів інструментів.

Через API Xiaomi пропонує конкурентоспроможні ціни як для внутрішнього (китайського), так і для міжнародних ринків (наприклад, США). Для закордонних розробників високопродуктивна MiMo-V2.5-Pro коштує 1,00 долар США за мільйон вхідних токенів (для кеш-промахів) і 3,00 долари США за вихідні дані в межах контекстних вікон до 256 тис. токенів.

Для завдань із надзвичайно довгим контекстом від 256 тис. до 1 мільйона токенів вартість подвоюється: 2,00 долари США за вхідні дані та 6,00 доларів США за вихідні. Однак можливості кешування архітектури забезпечують значне полегшення, зменшуючи вартість вхідних даних до 0,20–0,40 доларів США за мільйон токенів при влучанні в кеш.

На внутрішньому ринку ціни відповідають юаням: Pro-модель починається від 7,00 юанів за мільйон вхідних токенів для стандартного контексту і сягає 14,00 юанів для розширеного діапазону до 1 мільйона. Тим часом базова модель коштує лише 0,40 долара США за мільйон вхідних токенів для закордонних користувачів і 2,00 долари США за мільйон вихідних. Це ставить її серед найдоступніших провідних великих мовних моделей у світі (див. нашу таблицю нижче):

Модель	Вхідні дані	Вихідні дані	Загальна вартість	Джерело
Grok 4.1 Fast	0,20 дол. США	0,50 дол. США	0,70 дол. США	xAI
MiniMax M2.7	0,30 дол. США	1,20 дол. США	1,50 дол. США	MiniMax
MiMo-V2.5 Flash	0,10 дол. США	0,30 дол. США	0,40 дол. США	Xiaomi MiMo
Gemini 3 Flash	0,50 дол. США	3,00 дол. США	3,50 дол. США	Google
Kimi-K2.5	0,60 дол. США	3,00 дол. США	3,60 дол. США	Moonshot
MiMo-V2.5	0,40 дол. США	2,00 дол. США	2,40 дол. США	Xiaomi MiMo
MiMo-V2-Pro (≤256K)	1,00 дол. США	3,00 дол. США	4,00 дол. США	Xiaomi MiMo
GLM-5	1,00 дол. США	3,20 дол. США	4,20 дол. США	Z.ai
GLM-5-Turbo	1,20 дол. США	4,00 дол. США	5,20 дол. США	Z.ai
DeepSeek V4 Pro	1,74 дол. США	3,48 дол. США	5,22 дол. США	DeepSeek
GLM-5.1	1,40 дол. США	4,40 дол. США	5,80 дол. США	Z.ai
Claude Haiku 4.5	1,00 дол. США	5,00 дол. США	6,00 дол. США	Anthropic
Qwen3-Max	1,20 дол. США	6,00 дол. США	7,20 дол. США	Alibaba Cloud
Gemini 3 Pro	2,00 дол. США	12,00 дол. США	14,00 дол. США	Google
GPT-5.2	1,75 дол. США	14,00 дол. США	15,75 дол. США	OpenAI
GPT-5.4	2,50 дол. США	15,00 дол. США	17,50 дол. США	OpenAI
Claude Sonnet 4.5	3,00 дол. США	15,00 дол. США	18,00 дол. США	Anthropic
Claude Opus 4.7	5,00 дол. США	25,00 дол. США	30,00 дол. США	Anthropic
GPT-5.5	5,00 дол. США	30,00 дол. США	35,00 дол. США	OpenAI
GPT-5.4 Pro	30,00 дол. США	180,00 дол. США	210,00 дол. США	OpenAI

Щоб ще більше знизити бар’єр для розробки агентів, Xiaomi на обмежений час пропонує безкоштовне записування кешу для всіх моделей, а також повне безкоштовне використання всього набору MiMo-V2.5-TTS, що включає спеціалізовані функції клонування голосу та дизайну.

Така логіка ціноутворення явно спрямована на прискорення переходу від простих чат-додатків до постійних, довготривалих агентів, які можуть працювати за частку вартості застарілих передових моделей.

Xiaomi також запровадила оновлену версію своїх передплатницьких пропозицій під назвою “Token Plan”, яка тепер доступна у чотирьох рівнях:

Lite “Starter Pack” надає 720 мільйонів кредитів за 63,36 доларів США на рік.
Стандартний рівень пропонує 2,4 мільярда кредитів за 168,96 доларів США на рік.
Рівень Pro надає 8,4 мільярда кредитів за 528,00 доларів США на рік (призначений для корпоративних сценаріїв використання).
Max — орієнтований на ентузіастів кодування з високою інтенсивністю — надає 19,2 мільярда кредитів за 1 056,00 доларів США на рік.

Окрім розподілу кредитів, усі плани включають пільгові тарифи API, 20% знижку на виклики в позапіковий час та підтримку “Day-0” для популярних платформ кодування, таких як Cursor, Zed та Claude Code.

Однак, як через API, так і через Token Plan, доступ до моделей Xiaomi з Китаю може створювати перешкоди або додаткові ризики відповідності та регуляторні ризики для американських корпоративних клієнтів. Тому для американських підприємств, які стурбовані залежністю від китайських технологій, але бажають скористатися низькою вартістю та відкритими моделями, найкращим рішенням, ймовірно, буде створення власних віртуальних приватних хмар або локальних серверів, завантаження вагових коефіцієнтів моделі та запуск моделей на внутрішніх потужностях.

Архітектура MoE, але різні режими навчання для V2.5 та V2.5-Pro

В основі MiMo-V2.5 лежить архітектура розрідженої суміші експертів (Sparse Mixture-of-Experts, MoE). Хоча модель має загалом 310 мільярдів параметрів, під час кожного циклу виведення активними є лише 15 мільярдів.

Натомість V2.5-Pro — це модель Mixture-of-Experts з 1,02 трильйона параметрів і 42 мільярдами активних параметрів.

В обох випадках дизайн схожий на спеціалізовану лікарню: хоча в установі є сотні лікарів (параметрів), для конкретного випадку (запиту) викликаються лише необхідні фахівці.

Це значне збільшення обсягу параметрів для Pro-версії забезпечує “нейронний потенціал”, необхідний для глибокого, багатоетапного аналізу, що міститься в складному програмному інжинірингу та довготривалих завданнях, так ніби доступно ще більше фахівців у ще більшій лікарні.

Згідно з дописом у блозі Xiaomi, звичайна версія V2.5 проходить суворий п’ятиступеневий процес еволюції:

Попереднє навчання тексту: Створення потужної мовної основи на 48 трильйонах токенів.
Розігрів проєктора: Узгодження внутрішніх аудіо- та візуальних кодерів з мовною основою.
Мультімодальне попереднє навчання: Масштабування на основі високоякісних крос-модальних даних.
Агентське пост-навчання: Поступове розширення контекстного вікна з 32 тис. до 1 мільйона токенів.
RL та MOPD: Використання навчання з підкріпленням (Reinforcement Learning) та оптимізації мультімодальних уподобань (Multimodal Preference Optimization, MOPD) для покращення реальних міркувань та сприйняття.

Основа використовує гібридну архітектуру ковзного віконного уваги, успадковану від MiMo-V2-Flash, яка оптимізує здатність моделі “запам’ятовувати” довгострокову інформацію. Ця технічна основа дозволяє MiMo-V2.5 бачити, чути та міркувати нативно, замість того, щоб покладатися на зовнішні “плагіни” для обробки візуальної чи слухової інформації.

Навпаки, навчання MiMo-V2.5-Pro ставить пріоритет на “простір дій” (action space) над сенсорним сприйняттям. Замість сенсорного узгодження, фокус навчання Pro-моделі зміщується на масштабування обчислень після попереднього навчання.

Цей процес призначений для впровадження “обізнаності в інструментах” (harness awareness), де модель спеціально навчається керувати власною пам’яттю та контекстом у рамках автономних агентських платформ, таких як Claude Code або OpenCode.

У той час як базова модель V2.5 навчається міркувати між різними модальностями, Pro-версія навчається підтримувати узгодженість протягом більш ніж тисячі послідовних викликів інструментів.

Стандартна модель V2.5 балансує локальну та глобальну увагу для підтримки мультімодального сприйняття. Pro-модель, однак, використовує збільшене співвідношення гібридної уваги — еволюціонуючи з 5:1 у попередніх поколіннях до більш агресивного 7:1.

Це дозволяє Pro-моделі “пробігатися” по переважній більшості свого контексту, застосовуючи високощільну увагу до конкретних 15% даних, які є найбільш релевантними для поточної мети — критична функція для налагодження великих репозиторіїв або оптимізації схем рівня магістратури.

Нарешті, хоча обидві моделі проходять навчання з підкріпленням (RL) та оптимізацію мультімодальних уподобань (MOPD), цілі цих етапів відрізняються.

Для MiMo-V2.5 етап RL використовується для загострення сприйняття та мультімодального аналізу. Для MiMo-V2.5-Pro RL зосереджений на виконанні інструкцій у агентських сценаріях, забезпечуючи дотримання моделлю тонких вимог, вбудованих глибоко в ультрадовгий контекст, та її здатність до плавного відновлення після помилок під час автономного виконання.

Це призводить до “самокоригуючої” дисципліни Pro-моделі, як видно з її здатності діагностувати та виправляти регресії під час 4,3-годинної збірки компілятора SysY.

Повна ліцензія MIT ідеально підходить для корпоративних сценаріїв

Зробивши крок, який відрізняє її від багатьох “відкритих” моделей з обмежувальними політиками “прийнятного використання”, Xiaomi випустила MiMo-V2.5 під ліцензією MIT. Ліцензія MIT є золотим стандартом дозвільних ліцензій на програмне забезпечення. Для розробників та підприємств це означає:

Не вимагається авторизація: Компанії можуть комерційно розгортати модель без отримання явного дозволу від Xiaomi.
Подальше навчання: Розробники можуть доопрацьовувати модель на власних пропрієтарних даних і навіть випускати похідні вагові коефіцієнти.
Необмежене комерційне використання: Немає обмежень щодо доходу або кількості користувачів, які часто переслідують “спільнотні” ліцензії.

Обираючи MIT замість власної ліцензії “відкритих ваг”, Xiaomi позиціонує MiMo як базову інфраструктуру для наступного покоління агентів ШІ, фактично запрошуючи глобальну спільноту розробників ставитися до моделі як до суспільного надбання.

Історія Xiaomi: від смартфонів та електромобілів до улюбленої китайської відкритої моделі ШІ

Перехід Xiaomi до передових агентів ШІ є логічним завершенням десятиліття побудови одного з найщільніших у світі апаратно-програмних комплексів. Заснована у 2010 році як новатор у сфері смартфонів, пекінська компанія здійснила ризикований перехід до вертикально інтегрованого гіганта, визначеного її стратегією “Людина x Автомобіль x Дім”. Ця екосистема тепер охоплює понад 823 мільйони підключених смарт-пристроїв, об’єднаних під архітектурою HyperOS.

Вихід компанії на автомобільний ринок у 2024 році з моделлю SU7 та наступним високопродуктивним позашляховиком YU7 слугував доказом концепції цієї інтеграції, позиціонуючи Xiaomi як прямого конкурента світових люксових брендів.

Інвестуючи 200 мільярдів юанів (29 мільярдів доларів США) у фундаментальні дослідження та розробки чіпів та операційних систем, Xiaomi вийшла за межі складання споживчої електроніки; вона стала архітектором “простору дій”, використовуючи свій величезний апаратний потенціал як основне тестове середовище для інтелекту агентів, що міститься в серії MiMo-V2.5.

Підтримка екосистеми

Випуск був зустрітий негайною підтримкою “Day-0” від ширшої екосистеми ШІ. Команда MiMo оголосила, що SGLang та vLLM — два найпопулярніші механізми високопродуктивного виведення — підтримують серію V2.5 на момент запуску.

Це стало можливим завдяки апаратним партнерствам з AWS, AMD, T-HEAD та Enflame, що гарантує ефективну роботу моделі на всьому — від хмарних H100 до вітчизняних китайських прискорювачів.

Фулі Ло, керівник проєкту Xiaomi MiMo та колишній ключовий член команди DeepSeek, підкреслив філософію, що стоїть за випуском, у своєму дописі на X (раніше Twitter):

“Цінність моделі вимірюється не лише рейтингами — вона вимірюється проблемами, які вона вирішує. Давайте створювати разом з MiMo вже зараз!”

Для стимулювання цього етапу створення Ло оголосила про безкоштовне надання 100 трильйонів токенів для розробників та творців. Цей величезний стимул покликаний знизити бар’єр для тих, хто хоче експериментувати з 1-мільйонним контекстним вікном без негативного фінансового ризику.

Економічна перебудова: відкритий код проти пропрієтарних рішень за тарифами

Запуск відбувається в критичний момент для економіки ШІ. Перехід до оплати за використання знаменує остаточний кінець ери “шведського столу” для сервісів ШІ, тенденція, яка підкреслюється сьогоднішнім оголошенням GitHub про те, що його ШІ-асистент кодування Github Copilot перейде на платні кредити на основі токенів для всіх планів.

Оскільки передбачуваність витрат за ліцензіями поступається місцем витратам, що залежать від споживання, преміальні агентські робочі процеси — які можуть споживати мільйони токенів за один сеанс міркування — стають все більш складними для бюджетування підприємствами.

Настрій користувачів, як і слід було очікувати, став цинічним: розробники скаржаться, що вони “отримуватимуть менше, але платитимуть ту ж ціну”, оскільки підписки перетворюються на обмежені квоти. Така еволюція ціноутворення значно підвищує стратегічну привабливість серії MiMo. Випускаючи модель під дозвільною ліцензією MIT, Xiaomi дозволяє організаціям уникнути зростаючого “SaaS-податку” та повернути собі фінансову передбачуваність через приватне розгортання.

Важливо, що Xiaomi усунула “податок на контекст” для свого API. 1-мільйонне контекстне вікно тепер тарифікується за стандартною ставкою — 1 токен = 1 кредит для V2.5 та 2 кредити для Pro-версії — без додаткового множника. Це різко контрастує з загальногалунковим рухом до обмежень на сесію, позиціонуючи MiMo як притулок для розробки з високим обсягом та чутливістю до витрат.

Аналіз для підприємств

Випуск MiMo-V2.5 — це більше, ніж просто випуск моделі; це декларація незалежності для спільноти відкритого коду.

Відповідність Claude Sonnet 4.6 у мультімодальних агентських завданнях та Gemini 3 Pro у розумінні відео доводить, що розрив між “закритими” лабораторіями та відкритими дослідженнями фактично закритий. З ліцензією MIT як каталізатором і грантом у 100 Т токенів як паливом, найближчі місяці, ймовірно, побачать сплеск спеціалізованих агентських додатків, побудованих на основі MiMo.

Підтверджуючи амбіційну траєкторію проєкту, команда зазначила, що вони вже тренують наступне покоління, зосереджуючись на “глибшому аналізі” та “багатшому обґрунтуванні в реальному світі”. Наразі MiMo-V2.5 є свідченням сили розріджених архітектур та дозвільних ліцензій у гонці до функціонального AGI (штучного загального інтелекту).

Прогноз ІТ-Блогу: Xiaomi MiMo-V2.5 та MiMo-V2.5-Pro, завдяки своїй потужності, відкритій ліцензії та конкурентоспроможній ціні, ймовірно, швидко стануть основою для розробки нових агентських систем. Очікується, що це стимулюватиме зростання галузевих рішень, де ключову роль відіграватиме автономне виконання складних завдань.

Дізнатися більше на: venturebeat.com

Xiaomi MiMo-V2.5 та V2.5-Pro: Ефективні та доступні застосунки для “кігтя” завдань