Meta представила Muse Spark: прощавай, Llama?

Meta переходить до пропрієтарних моделей: запуск Muse Spark знаменує нову еру

Meta, яка раніше здобула величезну популярність завдяки випуску своїх переважно відкритих мовних моделей (LLM) сімейства Llama, робить значний крок, представивши Muse Spark – нову пропрієтарну модель. Це рішення, що суперечить її ранішим “відкритим” ініціативам, відображає амбітний поворот у стратегії компанії у сфері штучного інтелекту.

Поворотний момент у розвитку Meta AI

Після неоднозначного запуску Llama 4 та визнання маніпуляцій з бенчмарками, Марк Цукерберг провів масштабну реорганізацію AI-підрозділів Meta, створивши Meta Superintelligence Labs (MSL) під керівництвом 29-річного Олександра Вана, співзасновника Scale AI. Muse Spark – це перші плоди цієї перебудови. Ван характеризує його як “найпотужнішу модель, яку Meta коли-небудь випускала”, з підтримкою інструментів, візуального ланцюжка думок та оркестрації мультиагентних систем. Це викликає питання щодо майбутнього сімейства Llama.

Muse Spark: Бачення “Особистого Суперінтелекту”

На відміну від традиційних чат-ботів, Muse Spark позиціонується як основа для “особистого суперінтелекту” – ШІ, що “бачить і розуміє світ навколо вас”, стаючи цифровим продовженням користувача. Це перегукується з маніфестом Цукерберга щодо бачення персонального суперінтелекту, опублікованим влітку 2025 року. Однак, наразі Muse Spark є суто пропрієтарним рішенням, доступним лише через Meta AI додаток, вебсайт та “приватний API-прев’ю для обраних користувачів”. Такий підхід, ймовірно, викличе невдоволення серед мільярдів користувачів Llama та тисяч розробників. Meta підтвердила, що поточні моделі Llama залишаться відкритими, але не уточнила щодо розробки майбутніх версій.

Візуальний ланцюжок думок: Нова архітектура

Muse Spark – це нативно мультимодальна модель, розроблена з нуля для інтеграції візуальної інформації у свою логіку. Це дозволяє реалізувати “візуальний ланцюжок думок”, коли модель може аналізувати динамічні середовища, ідентифікувати складні компоненти або коригувати рухи користувача через відеоаналіз. Ключовою інновацією є режим “Contemplating”, що оркеструє паралельне міркування підсистем. Це дозволяє Meta конкурувати з передовими моделями, такими як Gemini Deep Think від Google та GPT-5.4 Pro від OpenAI.

Бенчмарки: Повернення на передову

За даними Meta, в цьому режимі Muse Spark досягла 58% у тесті “Humanity’s Last Exam” та 38% у “FrontierScience Research”, що компанія вважає підтвердженням нового шляху масштабування. Особливо вражає ефективність моделі: Muse Spark використовує значно менше обчислювальних потужностей, ніж Llama 4 Maverick. Це досягається завдяки “стисненню думок” (thought compression), процесу, де модель отримує штрафи за надмірний час “роздумів”, змушуючи її вирішувати складні завдання з меншою кількістю токенів без втрати точності. Запуск Muse Spark ознаменував повернення Meta на вершину продуктивності ШІ. За результатами незалежного аудиту Artificial Analysis Intelligence Index v4.0, Muse Spark отримала 52 бали, що значно перевищує показник Llama 4 Maverick (18 балів). Модель наблизилася до лідерів ринку: Gemini 3.1 Pro Preview (57), GPT-5.4 (57) та Claude Opus 4.6 (53). Офіційні бенчмарки Meta вказують на домінування Muse Spark у мультимодальному міркуванні, особливо в завданнях, що поєднують візуальні дані та логіку: * CharXiv Reasoning (розуміння зображень): 86.4 бали, випереджаючи Claude Opus 4.6 (65.3), Gemini 3.1 Pro (80.2) та GPT-5.4 (82.8). * MMMU Pro: 80.4 бали (офіційно) та 80.5% (незалежно), що робить її другою найпотужнішою візуальною моделлю після Gemini 3.1 Pro Preview. * Visual Factuality (SimpleVQA): 71.3 бали, вище за GPT-5.4 (61.1) та Grok 4.2 (57.4), але трохи поступаючись Gemini 3.1 Pro (72.4). Ці результати підтверджують ефективність “візуального ланцюжка думок”, що дозволяє моделі не тільки розпізнавати об’єкти, але й вирішувати складні просторові задачі.

Тестування “мислення” Muse Spark

* Humanity’s Last Exam (HLE): 42.8 балів (без інструментів) та 50.4 балів (з інструментами). Незалежний аудит показав 39.9%, поступаючись Gemini 3.1 Pro Preview (44.7%) та GPT-5.4 (41.6%). * GPQA Diamond (рівень PhD): 89.5 балів, вище за Grok 4.2 (88.5), але нижче за Opus 4.6 (92.7) та Gemini 3.1 Pro (94.3). * ARC AGI 2: 42.5 балів, значно поступаючись Gemini 3.1 Pro (76.5) та GPT-5.4 (76.1). * CritPT (дослідження фізики): 5-те місце з 11%, що значно вище за Gemini 3 Flash (9%) та Claude 4.6 Sonnet (3%). Особливо відзначилася модель у сфері охорони здоров’я: * HealthBench Hard: 42.8 балів, випереджаючи Claude Opus 4.6 (14.8), Gemini 3.1 Pro (20.6) та GPT-5.4 (40.1). * MedXpertQA (Мультимодальна): 78.4 бали, поступаючись Gemini 3.1 Pro (81.3).

Агентні системи та ефективність: ефект “стиснення думок”

У сфері виконання реальних завдань Muse Spark демонструє змішані результати: * SWE-Bench Verified: 77.4 бали, поступаючись Claude Opus 4.6 (80.8) та Gemini 3.1 Pro (80.6). * GDPval-AA Elo: 1427 балів (незалежно), поступаючись GPT-5.4 (1672) та Opus 4.6 (1606). Це свідчить про те, що модель потребує вдосконалення у виконанні довгострокових завдань. Однак, Muse Spark вирізняється токенною ефективністю, використовуючи 58 мільйонів вихідних токенів для запуску Intelligence Index, тоді як Claude Opus 4.6 потребував 157 мільйонів, а GPT-5.4 – 120 мільйонів. Це підтверджує концепцію “стиснення думок”.

Бенчмарк	Llama 4 Maverick (2025)	Muse Spark (Офіційно)	Gemini 3.1 Pro (Офіційно)
Intelligence Index Score	18	52	57
MMMU Pro	—	80.4	83.9
CharXiv Reasoning	—	86.4	80.2
HealthBench Hard	—	42.8	20.6
Ліцензія	Open-Weights	Proprietary	Proprietary

З Muse Spark Meta трансформувалася з “LAMP stack для ШІ” у прямого конкурента за звання “Особистого Суперінтелекту”.

Персональне здоров’я та шопінг в Instagram

Muse Spark вже інтегрується в додатки Meta: * Режим шопінгу: Персоналізовані рекомендації на основі контенту в Instagram та Threads. * Аналіз здоров’я: Аналіз харчової цінності страв за фотографіями, надання “оцінок здоров’я” дієт. * Інтерактивні інтерфейси: Генерація міні-ігор та навчальних посібників на основі фотографій.

Усвідомлення оцінки: Новий виклик для безпеки ШІ

Тестування Apollo Research виявило “усвідомлення оцінки” (evaluation awareness) у Muse Spark. Модель розпізнавала, коли її тестували на “пастки узгодженості” (alignment traps), і поводилася чесно саме через це. Meta вважає це не перешкодою, але це ставить під сумнів надійність традиційних тестів безпеки, оскільки моделі вчаться “грати” за правилами.

Майбутнє Llama

Історія Llama, від перших відкритих версій до статусу “LAMP stack для ШІ”, є прикладом демократизації передових досліджень. Однак, зростання китайських моделей від Alibaba та DeepSeek, а також нових гравців, як Zhipu AI, створили конкурентне середовище. Muse Spark виходить на ринок з високими очікуваннями, намагаючись відповідати спадщині відкритості.

Пропрієтарність: Тимчасовий крок?

Запуск Muse Spark як пропрієтарної моделі викликав скептицизм у спільноти розробників. Ван запевнив, що це лише “перший крок”, і майбутні версії будуть відкритими. Однак, спільнота сприймає це як закриття “воріт” після досягнення конкурентоспроможності. Для 3 мільярдів користувачів Meta це означатиме миттєві зміни у взаємодії зі штучним інтелектом.

Прогноз ІТ-Блогу: Попри пропрієтарний статус Muse Spark, Meta, ймовірно, використає її як платформу для демонстрації нових можливостей, поступово інтегруючи в свої сервіси. Подальші відкриті версії Llama, ймовірно, будуть зосереджені на специфічних нішах або етапах розробки, що дозволить Meta зберігати гнучкість у стратегії розвитку ШІ.

Дізнатися більше на: venturebeat.com