Microsoft навчила Phi-4-vision-15B розпізнавати, коли варто замислитись, а коли — ні

Microsoft навчила Phi-4-vision-15B розпізнавати, коли варто замислитись, а коли — ні 1

Microsoft представила Phi-4-reasoning-vision-15B — компактну мультимодальну модель зі відкритими ваговими коефіцієнтами, яка, за твердженнями компанії, демонструє продуктивність, що дорівнює або перевищує системи значно більших розмірів, споживаючи при цьому лише частку обчислювальних потужностей та навчальних даних. Цей випуск знаменує собою нову, технічно найамбітнішу главу в річній кампанії програмного гіганта, спрямованій на доведення того, що ретельно розроблені малі моделі можуть конкурувати з найбільшими ШІ-системами індустрії та в ключових сферах перевершувати їх.

15-мільярдна модель, що доступна через Microsoft Foundry, HuggingFace та GitHub під дозвільною ліцензією, обробляє як зображення, так і текст. Вона здатна логічно аналізувати складні математичні та наукові проблеми, інтерпретувати графіки та документи, навігувати графічними інтерфейсами користувача, а також виконувати повсякденні візуальні завдання, такі як створення підписів до фотографій чи зчитування інформації з квитанцій. Модель з’являється в час, коли галузь ШІ зіткнулася з фундаментальним протиріччям: найбільші моделі демонструють найкращу сиру продуктивність, але їх величезні витрати, затримка та енергоспоживання роблять їх непрактичними для багатьох реальних застосувань.

«Наша мета — надати спільноті практичні знання щодо створення менших, ефективних мультимодальних моделей для міркувань, — написала команда Microsoft Research в офіційному анонсі моделі. — Ми прагнемо поділитися моделлю з відкритими ваговими коефіцієнтами, яка є конкурентоспроможною з моделями подібного розміру у загальних задачах зі взаємодії “зір-мова”, демонструє виняткові здібності у роботі з комп’ютером, а також у мультимодальних міркуваннях з наукових та математичних питань».

Як Microsoft навчила конкурентоспроможну візуальну модель, використовуючи вп’ятеро менше даних

Мабуть, найвражаючішим твердженням у релізі є відносно невелика кількість навчальних даних, необхідних моделі порівняно з конкурентами. Phi-4-reasoning-vision-15B була навчена приблизно на 200 мільярдах токенів мультимодальних даних. Основою для цього послужила мовна архітектура Phi-4-Reasoning (навчена на 16 мільярдах токенів) та фундаментальна модель Phi-4 (400 мільярдів унікальних токенів). На противагу цьому, мультимодальні моделі-конкуренти з сімейства Qwen від Alibaba (2.5 VL і 3 VL), Kimi-VL від Moonshot AI, серії InternVL від SenseTime та Gemma3 від Google спожили понад трильйон токенів під час навчання — приблизно в п’ять разів більше, ніж загальний обсяг даних, використаний Microsoft.

Ця різниця має величезне економічне значення. Навчання великих ШІ-моделей коштує мільйони доларів хмарних обчислень, а екологічний слід тренувань на трильйонах токенів викликає зростаючу увагу з боку регуляторів та інвесторів. Якщо заяви Microsoft підтвердяться в ході незалежної оцінки, модель стане значним кроком у підвищенні ефективності навчання. Це може змінити підхід організацій до розрахунку “створити чи купити” при розгортанні ШІ.

Секрет, за словами команди дослідників, полягає не в масштабі, а в ретельній курації даних. Фінальний набір даних команди складався переважно з трьох джерел: відкриті набори даних, які були «ретельно відфільтровані та покращені»; високоякісні внутрішні дані специфічні для домену; та цільові закупівлі даних. Дослідники описали процес ручного контролю якості, під час якого члени команди переглядали вибірки з кожного набору даних, витрачаючи від п’яти до десяти хвилин на класифікацію якості даних, перш ніж вирішити, як обробляти кожне джерело. Для даних з неправильними відповідями вони генерували нові відповіді за допомогою GPT-4o та o4-mini. Коли запитання були невідновлюваними, але зображення були високоякісними, вони повторно використовували зображення як основи для нових даних із підписами або візуальними відповідями на запитання. Вони також повідомили про виправлення «напрочуд великої кількості помилок форматування та логічних помилок у широко використовуваних наборах даних з відкритим кодом» — висновок, який викликає незручні питання щодо якості навчальних даних, що лежать в основі багатьох найвідоміших моделей індустрії.

Чому модель міркує над диференціалами, але мовчить щодо підписів

Найбільш технічно новаторський внесок моделі, ймовірно, полягає в її підході до міркувань. У світі виключно мовних ШІ «моделі міркувань» — системи, які витрачають додатковий час на обчислення, працюючи над проблемами крок за кроком — стали найгарячішою категорією в галузі, з OpenAI’s o-series та DeepSeek’s R1, що ведуть цей напрямок. Однак розширення міркувань на мультимодальні завдання, що включають зображення, створює певну складність: для багатьох візуальних завдань, таких як створення підписів до зображень або оптичне розпізнавання символів, ланцюжок міркувань (chain-of-thought reasoning) не тільки не є необхідним, але може фактично погіршити продуктивність, вводячи надмірну багатослівність та затримку.

Рішенням Microsoft стало створення того, що вони називають «змішаною моделлю міркувань та не-міркувань». Команда почала з Phi-4-Reasoning, вже потужної мовної моделі для міркувань, і потім навчила її на гібридній суміші даних, де приблизно 20% вибірок включали явні сліди міркувань (обгорнуті тегами ``), а 80% були позначені для прямої відповіді (з токеном ``). Модель навчилася викликати структуровані міркування для таких областей, як математика та наука, де це допомагає, одночасно використовуючи швидкі, прямі відповіді для завдань, що зосереджені на сприйнятті, де це не потрібно.

Такий вибір дизайну відображає прагматичний погляд на міркування, який контрастує з нинішнім ентузіазмом галузі щодо постійно активного мислення. Як пояснила команда дослідників: «Для таких завдань, як створення підписів до зображень та оптичне розпізнавання символів (OCR), міркування часто не потрібні і можуть бути шкідливими, тоді як розв’язання математичних та наукових завдань виграє від багатоетапних міркувань». Користувачі, які бажають перевантажити стандартну поведінку моделі, можуть зробити це, явно промптуючи з токенами `` або ``.

Команда дослідила чотири можливі конвеєри навчання для мультимодальних міркувань і обрала той, який, на їхню думку, найкраще балансував можливості, ефективність та вимоги до даних. Альтернативні підходи — одночасне навчання можливостей міркувань та мультимодальності з базової моделі без міркувань, вивчення мультимодальних навичок спочатку з подальшим додаванням міркувань, або вимога слідів міркувань для всіх навчальних даних — кожен з них мав значні недоліки. Навчання міркувань з нуля вимагає величезної кількості даних для мультимодальних міркувань. Додавання міркувань після мультимодального навчання ризикує катастрофічним забуванням. А примусове міркування для кожного запиту витрачає обчислювальні ресурси на завдання, які від цього не виграють.

Архітектура зору, що робить знімки екрана високої роздільної здатності читабельними

Під капотом Phi-4-reasoning-vision-15B використовується архітектура середнього злиття (mid-fusion), яка поєднує візуальний енкодер SigLIP-2 з мовною основою Phi-4-Reasoning. Вибір середнього злиття — де попередньо навчений візуальний енкодер перетворює зображення на токени, які потім проектуються в простір вкладень мовної моделі — замість раннього злиття (early-fusion), де зображення та текст обробляються разом в одному трансформері, відображає обмежені ресурси команди. Раннє злиття дає більш насичені спільні представлення, але потребує значно більше обчислень, пам’яті та даних.

Команда провела ретельні аблеаційні дослідження щодо обробки роздільної здатності зображень, що є критично важливим для таких завдань, як зчитування щільних знімків екрана або дрібних елементів інтерфейсу користувача. Вони протестували чотири підходи — Dynamic S, Multi-crop, Multi-crop with S, і динамічну роздільну здатність, використовуючи варіант Naflex від SigLIP-2 — і виявили, що динамічні енкодери роздільної здатності працювали найкраще, особливо з даними високої роздільної здатності. Вони обрали варіант SigLIP-2 Naflex з максимумом до 3600 токенів, що приблизно відповідає нативній роздільній здатності 720p і продемонстрував особливо сильні результати на бенчмарках, що вимагають тонкого візуального розуміння, як-от ScreenSpot-Pro.

Це важливо для одного з основних сценаріїв використання моделі: живлення агентів, що використовують комп’ютер і навігують інтерфейсами робочого столу, вебу та мобільних пристроїв. Завдяки потужному сприйняттю високої роздільної здатності та можливостям тонкого прив’язування модель може ідентифікувати та локалізувати інтерактивні елементи, такі як кнопки, меню та текстові поля — передумова для автономних програмних агентів, які багато хто в галузі вважає наступним великим рубежем для розгортання ШІ. Команда зазначила, що низькі вимоги моделі під час виведення роблять її особливо придатною «для інтерактивних середовищ, де низька затримка та компактний розмір моделі є важливими».

Бенчмарки демонструють модель, яка обмінює грубу точність на швидкість та ефективність

Результати бенчмарків моделі малюють картину системи, яка значно перевищує свою вагову категорію за ефективністю, залишаючись при цьому конкурентоспроможною — хоча й не домінуючою — за сирою точністю. За власними оцінками команди на десяти бенчмарках, Phi-4-reasoning-vision-15B отримала 84.8 за AI2D (наукові діаграми), 83.3 за ChartQA, 75.2 за MathVista, 88.2 за ScreenSpot v2 (прив’язування елементів інтерфейсу користувача) та 54.3 за MMMU (широкий тест мультимодального розуміння).

Ці показники загалом відстають від набагато більших моделей Qwen3-VL-32B (які отримали 85.0, 84.0, 81.8, 93.9 та 70.6 відповідно за цими ж бенчмарками), але залишаються конкурентоспроможними або випереджають подібні за розміром системи, як-от Qwen3-VL-8B та Kimi-VL-A3B. Справжня цінність, як ілюструє Рис. 1 в анонсі, проявляється при відображенні точності проти часу обчислень та кількості вихідних токенів: Phi-4-reasoning-vision-15B знаходиться на межі Парето для моделей, які є одночасно швидкими та точними, демонструючи конкурентні результати за частку часу, необхідного більшим системам.

Команда Microsoft визнала, що їхні показники бенчмарків «можуть бути нижчими за інші раніше надані цифри», оскільки вони проводили всі оцінки самостійно, а не цитували дані з рейтингових таблиць. Вони використовували температуру=0.0, жадібне декодування та максимальний ліміт вихідних токенів 4096, без власного промптингу чи налаштування параметрів. Команда зобов’язалася публікувати всі журнали оцінок — практика прозорості, яка залишається незвичною в галузі і повинна дозволити незалежним дослідникам перевірити результати. Тим не менш, незалежне відтворення буде критично важливим: спільнота дослідників ШІ стає все більш скептично налаштованою щодо самостійно наданих цифр, особливо коли методології оцінки відрізняються між організаціями.

Від периферійних пристроїв до людиноподібних роботів, сімейство Phi розширюється

Phi-4-reasoning-vision-15B не існує ізольовано. Це останній внесок у сімейство моделей Phi, яке стрімко розширювалося протягом останнього року, еволюціонуючи від нішевого дослідницького проєкту до центрального стовпа стратегії Microsoft у галузі ШІ — стратегії, яка охоплює мову, зір, локальне виведення, освіту та робототехніку.

Історія тягнеться через кілька віх. Наприкінці 2024 року Microsoft випустила оригінальну Phi-4, мовну модель з 14 мільярдами параметрів, яка продемонструвала силу синтетичних даних та ретельної курації. У квітні 2025 року компанія запустила Phi-4 mini reasoning (3.8 мільярда параметрів), Phi-4 reasoning (14 мільярдів параметрів) та Phi-4 reasoning plus — остання, за повідомленнями TechCrunch, наблизилася до продуктивності DeepSeek’s R1, моделі з 671 мільярдом параметрів.

Сімейство також поширилося на спеціалізовані домени. Phi Silica, локальна мала мовна модель для Copilot+ PCs, використовувалася з доопрацюванням LoRA для налаштування генерації для конкретних завдань. В одному з прикладів, детально описаному в Windows Developer Blog, освітня команда Microsoft використовувала адаптери LoRA з Phi Silica для генерації тестів Kahoot!, досягнувши 75-відсоткового зниження показників відхилень та 4.6-кратного підвищення суб’єктивних оцінок якості. З боку апаратного забезпечення, модель Phi-4-mini була оптимізована для платформ NPU від MediaTek, працюючи зі швидкістю понад 800 токенів на секунду для попереднього заповнення на Dimensity 9400 — достатньо швидко для ШІ в реальному часі на смартфонах та планшетах.

І в тому, що може бути найбільш амбітним розширенням на сьогодні, Microsoft анонсувала Rho-alpha (ρα), описану як «першу робототехнічну модель компанії, похідну від серії Microsoft Phi». За даними Microsoft Research, Rho-alpha перетворює команди природної мови на керуючі сигнали для роботизованих систем, що виконують дворучні маніпуляції, додаючи тактильне сприйняття до стеку сприйняття та націлюючись на дворучні установки та людиноподібних роботів.

Що Phi-4-reasoning-vision сигналізує про майбутнє корпоративного ШІ

Реліз кристалізує ширший зсув у центрі ваги індустрії ШІ. Протягом останніх двох років домінуючим наративом було те, що чим більше, тим краще — що сира шкала параметрів, даних та обчислень є основним драйвером можливостей. Сімейство Phi від Microsoft представляє найпомітнішого корпоративного чемпіона контр-аргументу: що ретельне проєктування якості даних, методології навчання та архітектурного дизайну може замінити грубу силу масштабу. Ця теза має значні наслідки для корпоративного впровадження. Організації, що розгортають ШІ в середовищах з чутливою до затримки або обмеженими ресурсами — периферійні пристрої, інтерактивні додатки, локальні сервери — практично не можуть запускати моделі з трильйонами параметрів. 15-мільярдна модель, яка забезпечує 80-90% точності передової моделі за десяту частку вартості виведення, може розблокувати сценарії розгортання, які раніше були неекономічними.

Випуск моделі з відкритими ваговими коефіцієнтами, що супроводжується кодом для доопрацювання та журналами бенчмарків, також представляє конкурентну стратегію. Зробивши модель безкоштовно доступною та глибоко документованою, Microsoft позиціонує Phi як базовий шар для екосистеми подальших застосувань — багато з яких працюватимуть на Azure, використовуватимуть інструменти розробки Microsoft або інтегруватимуться з її стеком корпоративного програмного забезпечення.

Проте модель все ще відстає від найбільших відкритих конкурентів на найскладніших бенчмарках, особливо в математичних міркуваннях (де Qwen3-VL-32B-Thinking-40K отримує 78.2 за MathVerse проти 53.1 для Phi-4-reasoning-vision з примусовими міркуваннями) та загальному мультимодальному розумінні (показники MMMU 72.2 проти 55.0). Співвідношення 20/80 даних для міркувань/не-міркувань, за власним визнанням команди, є евристикою, яка «може бути неоптимальною для всіх доменів або контекстів розгортання». І здатність моделі правильно вирішувати, коли міркувати, а коли відповідати безпосередньо, залишається, за словами дослідників, «відкритою проблемою».

Microsoft робить ставку на те, що в реальному світі, де бюджети затримок стиснуті, апаратне забезпечення обмежене, а витрати на розгортання зростають з кожним викликом API, найрозумнішою моделлю буде не найбільша — а та, яка знає, коли думати, а коли просто відповідати. Чи виправдається ця ставка, залежатиме менше від таблиць бенчмарків, а більше від того, що станеться, коли мільйони розробників почнуть використовувати Phi-4-reasoning-vision. Модель доступна зараз на Microsoft Foundry, HuggingFace та GitHub. Лідерборд, як завжди, відкритий.

Прогноз ІТ-Блогу: Очікується, що Phi-4-reasoning-vision-15B стимулюватиме розробку спеціалізованих ШІ-агентів для корпоративних завдань, де оптимізація ресурсів є ключовою. Її успіх може спонукати інших розробників зосередитися на ефективності, а не лише на розмірі, створюючи більш доступні та потужні ШІ-рішення для широкого спектра застосувань.

За матеріалами: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *