Microsoft запускає 3 нові ШІ-моделі: прямий виклик OpenAI та Google

Microsoft робить ставку на власні передові моделі ШІ

Microsoft продемонструвала свою рішучість конкурувати безпосередньо з провідними дослідницькими лабораторіями, такими як OpenAI та Google, представивши три новітні моделі штучного інтелекту, розроблені власними силами. Це свідчить про стратегічний зсув від простого розповсюдження чужих технологій до активної розробки власних передових рішень.

Ці три моделі — MAI-Transcribe-1, MAI-Voice-1 та MAI-Image-2 — доступні через платформу Microsoft Foundry та новий MAI Playground. Вони охоплюють три найбільш комерційно привабливі напрямки в корпоративному ШІ: перетворення мови на текст, генерація реалістичного людського голосу та створення зображень. Ці розробки є першим кроком команди Microsoft з надсуперобчислень, яка була сформована лише шість місяців тому з метою досягнення “ШІ-самодостатності”.

Деміс Хассабіс, керівник команди, висловив захоплення тим, що компанія вже випустила моделі, які є “найкращими у світі для транскрипції”. Він також зазначив, що ці моделі потребують удвічі менше обчислювальних потужностей, ніж аналогічні рішення конкурентів.

Ця новина з’являється у важливий момент для Microsoft. Після значних інвестицій у ШІ-інфраструктуру, інвестори очікують чітких доказів того, що ці витрати перетворяться на прибуток. Представлені моделі, завдяки конкурентній ціні та потенціалу зниження собівартості, є першою відповіддю Microsoft на ці очікування.

MAI-Transcribe-1: Революція у транскрипції мови

MAI-Transcribe-1 — це ключова розробка, що демонструє найнижчий показник помилок розпізнавання слів (Word Error Rate, WER) на стандартному багатомовному тесті FLEURS для 25 мов, які найчастіше використовуються у продуктах Microsoft. Середній показник WER становить 3.8%. За даними Microsoft, ця модель перевершує Whisper-large-v3 від OpenAI у всіх 25 мовах, Gemini 3.1 Flash від Google у 22 мовах, а також Scribe v2 від ElevenLabs та GPT-Transcribe від OpenAI у 15 мовах кожна.

Модель використовує архітектуру трансформера з двонаправленим аудіокодером. Вона підтримує аудіофайли у форматах MP3, WAV та FLAC розміром до 200 МБ. Microsoft стверджує, що швидкість пакетної транскрипції в 2.5 рази вища, ніж у попереднього рішення Microsoft Azure Fast. Функції розрізнення мовців (diarization), контекстне збагачення (contextual biasing) та потокова обробка (streaming) будуть додані незабаром. Вже зараз MAI-Transcribe-1 тестується у режимі голосу Copilot та для транскрипції розмов у Microsoft Teams, що підкреслює швидкість, з якою компанія планує замінювати сторонні або застарілі внутрішні моделі власними розробками.

Паралельно з цим, MAI-Voice-1 — це модель для перетворення тексту на мову, здатна генерувати 60 секунд природного аудіо за одну секунду. Вона зберігає ідентичність голосу при обробці довгих текстів і дозволяє створювати кастомні голоси з кількох секунд аудіозапису через Microsoft Foundry. Ціна моделі встановлена на рівні $22 за 1 мільйон символів. MAI-Image-2, в свою чергу, увійшла до трійки кращих моделей сімейства на дошці лідерів Arena.ai та забезпечує вдвічі швидшу генерацію зображень порівняно з попередником. Вона інтегрується в Bing та PowerPoint, а її вартість становить $5 за 1 мільйон токенів для текстового вводу та $33 за 1 мільйон токенів для виведення зображень. WPP, один із найбільших рекламних холдингів світу, є одним із перших партнерів, що активно використовують MAI-Image-2.

Переукладення контракту з OpenAI: ключ до амбіцій Microsoft

Щоб зрозуміти важливість цих моделей, необхідно розглянути договірні зміни, що уможливили їх розробку. До жовтня 2025 року Microsoft мала контрактні обмеження щодо незалежної розробки штучного загального інтелекту (AGI). Первісна угода з OpenAI, укладена у 2019 році, надавала Microsoft ліцензію на моделі OpenAI в обмін на розбудову хмарної інфраструктури для OpenAI. Однак, коли OpenAI почала розширювати свою обчислювальну базу поза межами Microsoft, уклавши угоди з іншими компаніями, Microsoft переглянула умови контракту. Як пояснив Хассабіс, оновлена угода означала, що “донедавна Microsoft не мала права — за контрактом — самостійно займатися розробкою штучного загального інтелекту або суперінтелекту”. Нові умови дозволили Microsoft створювати власні передові моделі, зберігаючи при цьому ліцензійні права на всі розробки OpenAI до 2032 року.

“У вересні минулого року ми переуклали контракт з OpenAI, що дозволило нам самостійно займатися розробкою власного суперінтелекту”, — зазначив Хассабіс. “З того часу ми активно працюємо над забезпеченням необхідних обчислювальних потужностей, формуванням команди та придбанням даних”.

Він підкреслив, що партнерство з OpenAI залишається незмінним: “Ніщо не змінюється у наших стосунках з OpenAI. Ми будемо співпрацювати з ними щонайменше до 2032 року, і, сподіваємося, набагато довше. Вони були для нас чудовим партнером”. Microsoft також надає доступ до Claude від Anthropic через свій API Foundry, позиціонуючи себе як “платформа платформ”. Проте, очевидно, що Microsoft прагне до повної незалежності. Раніше Хассабіс писав у внутрішньому меморандумі, що його мета — “зосередити всю свою енергію на наших зусиллях у сфері суперінтелекту та забезпечити світового класу моделі для Microsoft протягом наступних 5 років”.

Інновації від малих команд

Один із найцікавіших аспектів, яким поділився Хассабіс, — це надзвичайно малі розміри команд, що працюють над цими моделями. “Аудіомодель була розроблена командою з 10 осіб, і переважна більшість досягнень у швидкості, ефективності та точності досягнута завдяки архітектурі моделі та використаним даним”, — зазначив він. “Моя філософія завжди полягала в тому, що нам потрібно менше людей, але більш уповноважених. Тому ми маємо надзвичайно пласку структуру”. Команда, що працює над зображеннями, також налічує менше 10 осіб. “Все це — результат інновацій у моделях та даних, що забезпечило найвищу продуктивність”, — додав Хассабіс.

Це важливо з двох причин. По-перше, це ставить під сумнів загальноприйняту думку про те, що розробка передових ШІ-систем вимагає тисяч дослідників та мільярдних витрат на персонал. Натомість, Meta, наприклад, дотримується стратегії “найму багатьох індивідуальних спеціалістів, а не створення команди”, що включає рекордні пакети компенсацій для провідних дослідників. По-друге, малі команди, що досягають найвищих результатів, значно покращують економіку розробок. Якщо Microsoft може створити кращу за всіх транскрипційну модель, використовуючи 10 інженерів та вдвічі менше GPU, ніж конкуренти, то структура прибутку їхнього ШІ-бізнесу виглядає зовсім інакше, ніж у компаній, що витрачають величезні кошти для досягнення подібних результатів.

Такий підхід також відображає погляди Хассабіса на те, як ШІ вже змінює процес створення самого ШІ. Він описує середовище, що нагадує стартап-майданчик, а не традиційний інженерний відділ Microsoft. “Групи людей працюють навколо круглих столів, а не за традиційними столами, використовуючи ноутбуки замість великих екранів”, — розповів він. “Вони буквально кодують разом, пліч-о-пліч весь день, з ранку до ночі, у кімнатах по 50-60 осіб”.

“Гуманістичний ШІ”: Філософія, орієнтована на бізнес

Хассабіс активно формує філософський бренд навколо ШІ-ініціатив Microsoft під назвою “гуманістичний ШІ”. Цей термін з’явився у його публікації та був детальніше розкритий в інтерв’ю. “Я вважаю, що мотивація гуманістичного суперінтелекту полягає у створенні чогось, що справді служить людству”, — сказав він. “Люди залишатимуться на вершині харчового ланцюга, і завжди будуть узгоджені з інтересами людини”.

Така позиція має кілька цілей. Вона відрізняє Microsoft від компаній, які використовують більш “прискорювальну” риторику, як-от OpenAI та Meta. Вона резонує з корпоративними клієнтами, яким потрібні гарантії управління, відповідності нормам та безпеки перед впровадженням ШІ у регульованих галузях. І вона слугує своєрідним “страховим полісом”: якщо щось піде не так у ширшій екосистемі ШІ, Microsoft зможе посилатися на свою заявлену прихильність до людського контролю. Хассабіс також наголосив на походженні даних як конкурентній перевазі, обговорюючи з генеральним директором Сатьєю Наделла розробку “чистої лінії моделей, де дані є надзвичайно якісними”. Він провів неявне порівняння з відкритими рішеннями, зазначивши, що “багато моделей з відкритим кодом були навчені на даних, скажімо так, неналежним чином. І це потенційно несе ризики безпеки”. Для корпоративних клієнтів, які оцінюють постачальників ШІ на тлі судових позовів щодо авторських прав, це є значним комерційним аргументом — якщо Microsoft зможе правдоподібно стверджувати, що її навчальні дані були отримані через належним чином ліцензовані канали, це зменшує юридичні та репутаційні ризики впровадження цих моделей у продакшн.

Агресивне ціноутворення Microsoft створює тиск на ринок

Сьогоднішній запуск ставить Microsoft на три конкурентні фронти одночасно. MAI-Transcribe-1 безпосередньо конкурує з транскрипційними рішеннями, де домінують моделі Whisper від OpenAI у спільноті відкритого коду, при цьому Microsoft стверджує про вищу точність у всіх 25 мовах. Результати FLEURS також показують перевагу над Gemini 3.1 Flash Lite від Google у 22 з 25 мов — прямий виклик Google, який активно просуває Gemini у своїх продуктах. MAI-Voice-1, зі своєю здатністю клонувати голоси з кількох секунд аудіо та генерувати мову в 60 разів швидше за реальний час, конкурує з ElevenLabs, Resemble AI та зростаючою екосистемою стартапів у сфері голосу ШІ. Перевага Microsoft у дистрибуції — будь-який розробник Foundry тепер має доступ до цих можливостей через той самий API, який вони використовують для GPT-4 та Claude — діє як потужний захист.

“Ми зараз входимо до трійки кращих лабораторій, одразу після OpenAI та Gemini”, — сказав Хассабіс. Стратегія ціноутворення — MAI-Voice-1 за $22 за мільйон символів, MAI-Image-2 за $5 за мільйон вхідних токенів — відображає свідоме рішення конкурувати за ціною. “Ми встановлюємо ціни так, щоб бути найкращими серед усіх хмарних провайдерів. Тобто, найдешевшими серед усіх гіперскейлерів, таких як Amazon та, очевидно, Google”, — зазначив Хассабіс. “Це дуже свідоме рішення”.

Це має стратегічний сенс для Microsoft, яка може амортизувати витрати на розробку моделей на свою величезну базу корпоративних клієнтів. Але це також відповідає на запитання, яке інвестори все частіше ставлять: коли витрати на ШІ почнуть приносити прибуток? Акції Microsoft впали приблизно на 17% з початку року, згідно з даними CNBC, що є частиною ширшого розпродажу акцій програмного забезпечення. Створюючи моделі, які працюють на половині GPU порівняно з конкурентами, Microsoft знижує власні витрати на інфраструктуру для внутрішніх продуктів — Teams, Copilot, Bing, PowerPoint — одночасно пропонуючи розробникам ціни, покликані підірвати решту ринку. У своєму березневому меморандумі Хассабіс писав, що його моделі “дозволять нам досягти ефективності COGS, необхідної для обслуговування навантажень ШІ в величезному масштабі, необхідному в найближчі роки”. Ці три моделі — перші відчутні кроки до виконання цієї обіцянки.

Майбутнє: незалежність у розробці передових мовних моделей

Хассабіс чітко дав зрозуміти, що транскрипція, генерація голосу та зображень — це лише початок. На запитання, чи буде Microsoft створювати велику мовну модель для прямої конкуренції з GPT на передовому рівні, він відповів однозначно. “Ми абсолютно будемо випускати найсучасніші моделі у всіх модальностях”, — заявив він. “Наша місія — забезпечити, щоб якщо Microsoft колись потребуватиме цього, ми змогли надати найсучасніші рішення з найкращою ефективністю, найнижчою ціною та бути повністю незалежними”.

Він описав багаторічний план “створення GPU-кластерів відповідного масштабу”, зазначивши, що команда суперінтелекту була офіційно сформована лише у жовтні 2025 року. Хассабіс спілкувався з журналістами з Маямі, де вся команда зібралася для одного зі своїх регулярних тижневих очних зустрічей. Він розповів, як Сатья Наделла особисто прибув, щоб окреслити “дорожню карту всього, чого нам потрібно досягти для нашої місії ШІ-самодостатності протягом наступних 2, 3, 4 років, та всю дорожню карту обчислень, яка це передбачатиме”.

Звичайно, створення конкурентоспроможної передової LLM — це завдання зовсім іншого порядку складності, вимог до даних та витрат на обчислення, ніж те, що Microsoft продемонструвала сьогодні. Моделі, випущені сьогодні, є спеціалізованими — вони працюють з аудіо та зображеннями, а не з загальним мисленням та генерацією тексту, що лежить в основі таких продуктів, як ChatGPT або ключового функціоналу Copilot. Хассабіс має організаційний мандат, підтримку Наделли та договірну свободу. Чого йому поки що бракує, так це досвіду в Microsoft у вирішенні найскладнішої проблеми в галузі ШІ.

Однак, варто врахувати те, що він має: три моделі, які є найкращими або наближаються до цього у своїх галузях, розроблені командами меншими за більшість стартапів на ранніх стадіях, що працюють на половині стандартного для галузі GPU-сліду та мають ціни нижчі, ніж у будь-якого великого хмарного конкурента. Два роки тому Хассабіс запропонував у MIT Technology Review так званий “Сучасний тест Тюрінга” — не чи зможе ШІ обдурити людину в розмові, а чи зможе він вийти у світ та виконати реальні економічні завдання з мінімальним наглядом. Сьогодні його моделі зробили крок до цього бачення. Питання тепер у тому, чи зможе команда суперінтелекту Microsoft повторити цей трюк у масштабі, який дійсно має значення, і чи зможуть вони зробити це до того, як терпіння ринку вичерпається.

Прогноз ІТ-Блогу: Microsoft, ймовірно, активно використовуватиме свої нові моделі для зниження витрат у власних продуктах, таких як Copilot та Teams. Це може призвести до агресивнішого ціноутворення на хмарні послуги ШІ, створюючи значний тиск на конкурентів, таких як Amazon та Google, і стимулюючи інновації в екосистемі AI.

Подробиці можна знайти на сайті: venturebeat.com