Microsoft випускає MAI-Image-2-Efficient: Швидша та економніша модель ШІ для генерації зображень

Microsoft презентувала MAI-Image-2-Efficient – спрощену версію своєї флагманської моделі для генерації зображень з тексту. Ця нова ітерація пропонує значно нижчу вартість та вищу швидкість роботи, зберігаючи при цьому якість, придатну для промислового використання, майже за половину ціни. Модель вже доступна через Microsoft Foundry та MAI Playground без черг. Цей реліз демонструє найшвидший час виходу продукту від внутрішньої команди Microsoft, що займається надінтелектом ШІ, і є чітким сигналом намірів компанії будувати незалежну екосистему штучного інтелекту, яка не залежатиме від OpenAI.

Нова модель коштує 5 доларів за мільйон вхідних текстових токенів та 19,50 доларів за мільйон вихідних токенів зображень. Це приблизно на 41% менше порівняно з попередньою моделлю MAI-Image-2, де ціни становили 5 та 33 долари відповідно. Microsoft заявляє, що модель працює на 22% швидше за свого старшого брата та демонструє у 4 рази вищу ефективність використання обчислювальних потужностей на GPU NVIDIA H100 при роздільній здатності 1024×1024. Компанія також стверджує, що нова модель перевершує конкурентні рішення від інших хмарних провайдерів – зокрема, Gemini 3.1 Flash, Gemini 3.1 Flash Image та Gemini 3 Pro Image від Google – в середньому на 40% за показниками затримки p50.

Microsoft також повідомила, що модель інтегрується в Copilot та Bing, з подальшим розширенням на інші продукти.

Двомодельна стратегія Microsoft: ціноутворення на основі доступності

Microsoft позиціонує MAI-Image-2-Efficient та флагманську MAI-Image-2 як доповнюючі інструменти, а не взаємозамінні. Цей підхід, що передбачає різні рівні продуктивності та ціни, покликаний охопити весь спектр потреб корпоративних клієнтів у генерації зображень.

MAI-Image-2-Efficient орієнтована на високооб’ємні, економічно чутливі виробничі завдання: створення зображень продуктів, маркетингових матеріалів, прототипів інтерфейсів, конвеєрів брендованого контенту та інтерактивних додатків реального часу. За даними Microsoft, вона ефективно обробляє короткий текст в межах зображень, такий як заголовки та підписи, і розроблена для роботи в умовах обмежень затримки та бюджету, характерних для пакетної обробки. MAI-Image-2, натомість, залишається інструментом найвищої точності – моделлю, яку слід обирати, коли вимагається максимальна фотореалістичність, складні стилізації (наприклад, аніме чи ілюстрації) або розширений, більш детальний текст у межах зображення. Microsoft фактично пропонує корпоративним клієнтам: використовуйте ефективну модель для масового виробництва, а флагманську – для демонстрації найвищої якості.

Такий підхід перегукується з успішними ціновими стратегіями, що вже зарекомендували себе в індустрії ШІ – багатоярусні моделі OpenAI, лінійка Haiku-Sonnet-Opus від Anthropic, поділ Gemini від Google на Flash та Pro. Однак, Microsoft застосовує цю модель саме до генерації зображень, де економіка витрат на одне зображення може визначати успіх або провал розгортання продуктів у великих масштабах.

Як Microsoft впровадила оптимізовану для виробництва модель зображень менш ніж за місяць

Швидкість випуску цієї моделі заслуговує на окрему увагу. Сама MAI-Image-2 була представлена на MAI Playground лише 19 березня, а ширший доступ через Microsoft Foundry було відкрито 2 квітня разом із двома іншими новими базовими моделями: MAI-Transcribe-1 (модель перетворення мови на текст, що підтримує 25 мов) та MAI-Voice-1 (модель генерації аудіо). Менш ніж за місяць Microsoft випустила оптимізований виробничий варіант.

Такий темп свідчить про те, що команда MAI Superintelligence – дослідницька група під керівництвом Мустафи Сулеймана, генерального директора Microsoft AI, створена в листопаді 2025 року – працює швидше, подібно до стартапу, який випускає ітеративні продукти, а не традиційної корпоративної дослідницької лабораторії, що публікує наукові статті. Коли Сулейман у своєму дописі від 2 квітня писав, що команда «будує гуманістичний ШІ» з фокусом на «оптимізацію спілкування людей та навчання для практичного використання», він, схоже, мав це на увазі буквально: моделі не просто випускаються, а випускаються достатньо швидко, щоб мати чіткі дорожні карти продуктів.

Початкова оцінка MAI-Image-2 була надзвичайно позитивною. У своєму огляді видання Decrypt зазначило, що модель вже посіла 3-тє місце в рейтингу Arena.ai для генерації зображень, поступаючись лише Google та OpenAI. Оглядач Decrypt відзначив, що фотореалістичність моделі була «справжньою перевагою», а рендеринг тексту – «дійсно визначною особливістю», яка «дозволяла працювати зі складним текстом з набагато більшою послідовністю, ніж очікувалося». Огляд також показав, що в деяких прямих порівняннях MAI-Image-2 перевершила GPT-Image від OpenAI за якістю зображень та рендерингом тексту, незважаючи на нижчу позицію в рейтингу – це спостереження підкреслює, що бенчмарки не завжди відображають реальну корисність.

Водночас, оригінальна модель мала значні обмеження, які виявив Decrypt: 30-секундна затримка між генераціями, щоденний ліміт у 15 зображень у нативному інтерфейсі, підтримка лише співвідношення сторін 1:1, відсутність можливостей перетворення зображення на зображення та агресивна фільтрація контенту, яка блокувала навіть нешкідливі творчі запити. Чи успадкує MAI-Image-2-Efficient будь-які з цих обмежень, або ж пом’якшить їх, не зазначено в сьогоднішньому анонсі. Корпоративні клієнти, які отримують доступ до моделі через API Foundry, ймовірно, зіткнуться з іншими обмеженнями, ніж користувачі Playground.

Внутрішні причини розриву між Microsoft та OpenAI, що зробили власні моделі неминучими

Сьогоднішній запуск не можна розглядати ізольовано. Він відбувається в період, коли відносини між Microsoft та OpenAI – колись ключове партнерство ери генеративного ШІ – очевидно, зазнають розладу.

Ще вчора CNBC повідомило, що новопризначений директор з доходів OpenAI, Деніз Дрессер, надіслала внутрішній меморандум співробітникам, чітко зазначивши, що партнерство з Microsoft «обмежувало нашу здатність бути там, де знаходяться підприємства». Згідно з повідомленнями, меморандум рекламував новий альянс OpenAI з Amazon Web Services та платформою Bedrock як ключовий драйвер зростання, описуючи вхідний попит клієнтів як «відверто приголомшливий» з моменту оголошення партнерства наприкінці лютого. Microsoft додала OpenAI до списку своїх конкурентів у річному звіті в середині 2024 року. OpenAI, тим часом, диверсифікувала свою хмарну інфраструктуру, залучивши CoreWeave, Google та Oracle, зменшуючи залежність від Microsoft Azure.

Сімейство моделей MAI є найбільш відчутним проявом від’єднання Microsoft від цієї стратегічної залежності. Коли Microsoft може генерувати зображення промислової якості за допомогою власної моделі за 19,50 доларів за мільйон вихідних токенів, калькуляція продовження ліцензування моделей зображень OpenAI – та виплати OpenAI частки від отриманого доходу – різко змінюється. Кожна модель MAI, яка досягає якості промислового рівня, є пунктом витрат, який Microsoft потенційно може перенести з балансу OpenAI на власний.

Організаційна інфраструктура для підтримки цього переходу вже існує. 17 березня, як було оголошено в повідомленнях, опублікованих у офіційному блозі Microsoft, генеральний директор Сатья Наделла анонсував масштабну реорганізацію, яка об’єднала зусилля компанії щодо споживчих та комерційних Copilot під єдиною керівною командою, з підвищенням Джейкоба Андреу до віце-президента з Copilot, який підпорядковується безпосередньо Наделле. Критично важливим є те, що реорганізація також перефокусувала роль Сулеймана. Як написав Наделла у своєму повідомленні співробітникам, компанія «подвоює свої зусилля у місії надінтелекту з талантами та обчислювальними потужностями для створення моделей, що мають реальний вплив на продукти, з точки зору оцінок, скорочення собівартості, а також просування вперед». Фраза «скорочення собівартості» – це корпоративний жаргон для зменшення собівартості реалізованої продукції, і він безпосередньо вказує на економічну мотивацію, що стоїть за моделями, подібними до MAI-Image-2-Efficient. Кожен долар, який Microsoft заощаджує, використовуючи власні моделі замість ліцензування від партнерів, прямо спрямовується на валовий прибуток.

Чому дешева, швидка генерація зображень – секретний інгредієнт агентного ШІ Microsoft

Існує ще один вимір, який робить сьогоднішній реліз стратегічно значущим, і, можливо, найважливіший: зростання ролі ШІ-агентів.

TechCrunch повідомив вчора, що Microsoft тестує способи інтеграції функцій, подібних до OpenClaw, у Microsoft 365 Copilot, рухаючись до постійно активного агента, який може виконувати багатоетапні завдання протягом тривалого часу. Компанія також запустила Copilot Cowork (агент, що виконує дії в додатках Microsoft 365), Copilot Tasks (агент для виконання багатоетапних завдань особистої продуктивності) та Agent 365 (згаданий у березневому меморандумі про реорганізацію Наделли). Очікується, що Microsoft продемонструє ці агентні можливості на своїй конференції Build у червні.

У світі, де домінують агенти – де системи ШІ не просто відповідають на запитання, а самостійно виконують складні робочі процеси – генерація зображень стає базовим елементом, який агенти викликають програмно, а не самостійним продуктом, з яким користувачі взаємодіють вручну. Корпоративний агент, що створює маркетингову кампанію, може потребувати генерації десятків зображень продуктів, створення контенту для соціальних мереж, розробки графіки для презентацій та ітерації дизайнерських концепцій – і все це без втручання людини на кожному кроці. Економіка такого робочого процесу повністю визначається ціною за токен та затримкою, що саме й оптимізує MAI-Image-2-Efficient. Якщо бачення Microsoft щодо Copilot включає агентів, які генерують зображення як рутинне підзавдання в межах більших робочих процесів, ці агенти потребують генерації зображень, яка є достатньо швидкою, щоб не створювати вузьких місць, і достатньо дешевою, щоб не перевищувати бюджетні прогнози при виклику тисячі разів на день. 4-кратне підвищення ефективності та 41% зниження ціни – це не просто маркетингові показники, а архітектурні вимоги для майбутнього з агентним ШІ, на яке робить ставку компанія.

Чого Microsoft досі не повідомила про свою нову модель зображень

Декілька важливих питань залишаються без відповіді після сьогоднішнього анонсу. Microsoft не уточнила, чи вирішує MAI-Image-2-Efficient обмеження зі співвідношенням сторін та агресивну фільтрацію контенту, на які вказували оглядачі в оригінальній моделі. Компанія також не зазначила, чи пов’язані компроміси між якістю та швидкістю з видимим зниженням якості для складних запитів – в анонсі «якість, придатна для виробництва» та «флагманська якість» використовуються як взаємозамінні, але дистиляційні моделі будь-якого типу зазвичай передбачають певні поступки в якості.

Прикінцеві примітки в прес-релізі також розкривають вузькі умови, за яких були протестовані заявлені показники: показники ефективності вимірювалися на NVIDIA H100 при 1024×1024 з «оптимізованими розмірами пакетів та узгодженими цільовими показниками затримки», а порівняння затримки з моделями Google проводилися на p50 (медіана), а не на p95 або p99, що могло б відобразити найгірші сценарії роботи. Корпоративні клієнти, які працюють з різними навантаженнями при різних рівнях одночасності, можуть побачити інші результати. MAI Playground наразі доступний лише на певних ринках, включаючи США, з позначкою «незабаром» для доступу в ЄС. Інтеграція з Copilot триває, але ще не завершена. І корпоративний API через Foundry, хоч і працює, все ще перебуває на ранній стадії розгортання.

Але траєкторія розвитку безсумнівна. Менш ніж за п’ять місяців після анонсу команди MAI Superintelligence Microsoft випустила флагманську модель зображень, три додаткові базові моделі, а тепер і оптимізований за вартістю виробничий варіант – і все це паралельно з реорганізацією всієї організації Copilot, розв’язанням проблем з розривом стосунків з ключовим партнером у сфері ШІ та закладанням фундаменту для агентних функцій ШІ, що можуть перевизначити корпоративну продуктивність. Чи достатньо всього цього, щоб надолужити динаміку Anthropic, стримати відтік OpenAI до Amazon та виправдати цільову ціну в 600 доларів – це питання на сотні мільярдів доларів. Але для компанії, яка провела перші два роки ери генеративного ШІ переважно перепродаючи технології інших, Microsoft тепер робить те, чого давно не робила в сфері ШІ: випускає власну роботу, за власним графіком, за власною ціною – і кидає виклик ринку встигнути.

Прогноз ІТ-Блогу: MAI-Image-2-Efficient відкриває шлях до масового впровадження генерації зображень у корпоративні процеси завдяки оптимізації вартості та швидкості. Ймовірно, ми побачимо швидке розширення її застосування в інструментах для маркетингу, дизайну та автоматизації контенту, що зробить високоякісну генерацію зображень доступною для ширшого кола бізнес-завдань.

Дізнатися більше на: venturebeat.com

Двомодельна стратегія Microsoft: ціноутворення на основі доступності

Як Microsoft впровадила оптимізовану для виробництва модель зображень менш ніж за місяць

Внутрішні причини розриву між Microsoft та OpenAI, що зробили власні моделі неминучими

Чому дешева, швидка генерація зображень – секретний інгредієнт агентного ШІ Microsoft

Чого Microsoft досі не повідомила про свою нову модель зображень

Залишити відповідьСкасувати відповідь