Чому мініатюрний VibeThinker-3B від Weibo спричинив нову суперечку про бенчмарки в світі ШІ

У неділю команда з дев’яти дослідників Sina Weibo — китайського соціального гіганта, більш відомого своєю мікроблоговою платформою, ніж передовими досягненнями у сфері штучного інтелекту — тихо опублікувала 14-сторінковий технічний звіт на arXiv, який викликав справжній фурор у науковій спільноті ШІ. Їхнє твердження: мовна модель із лише 3 мільярдами параметрів може відповідати або перевищувати продуктивність у сфері міркувань флагманських систем від Google DeepMind, OpenAI, Anthropic та DeepSeek, які в сотні разів більші.

Модель під назвою VibeThinker-3B показала результат 94.3 на AIME 2026 — Американському інженерно-математичному іспиті, одному з найвимогливіших стандартизованих змагань з математики у світі. Цей показник ставить її в один ряд з DeepSeek V3.2, моделлю з 671 мільярдом параметрів, і випереджає Gemini 3 Pro, високопродуктивну флагманську систему міркувань від Google, яка набрала 91.7 бала. Завдяки техніці масштабування під час тестування, яку команда називає “Оцінка надійності на рівні тверджень” (Claim-Level Reliability Assessment), показник зростає до 97.1, випереджаючи практично кожну систему, зафіксовану у публічних записах.

Протягом кількох годин після публікації стаття отримала 62 схвальні відгуки на стрічці щоденних статей Hugging Face, репозиторій моделі накопичив 130 лайків, а репозиторій GitHub досяг 685 зірок. Однак реакція в соціальних мережах була не виключно святковою. У багатьох випадках вона була глибоко скептичною.

“ЩО, ЧОРТ ЗАБИРАЙ, відбувається в ШІ?” — написав користувач @orcus108 у X, у пості, який зібрав понад 161 000 переглядів. “3-мільярдна модель щойно показала результати на бенчмарках кодування на рівні Claude Opus 4.5… Я щиро не знаю, чи це прорив, чи бенчмарки зламані.”

Ця напруга — між справжнім науковим прогресом і зростаючою підозрою, що бенчмарки ШІ стали настільки маніпульованими, що втратили своє значення — лежить в основі історії VibeThinker-3B. І відповідь має величезне значення не лише для академічних похвал, а й для багатомільярдної проблеми: чи є невтомний рух індустрії ШІ до все більших моделей єдиним шляхом до інтелекту.

Результати бенчмарків, що кидають виклик законам масштабу сучасного ШІ

Результати, представлені в технічному звіті, за будь-якими стандартними критеріями є надзвичайними.

У сфері математики VibeThinker-3B отримала 91.4 на AIME 2025, 94.3 на AIME 2026, 89.3 на HMMT 2025 (Математичний турнір Гарварду-MIT), 93.8 на BruMO 2025 (Математична олімпіада Браунського університету) та 76.4 на IMO-AnswerBench, бенчмарку, що складається з 400 завдань рівня Міжнародної математичної олімпіади. У сфері кодування вона показала 80.2 Pass@1 на LiveCodeBench v6, бенчмарку, розробленому для тестування генерації виконуваного коду, і досягла 96.1% прийняття на невідомих щотижневих та двотижневих змаганнях LeetCode з кінця квітня до кінця травня 2026 року. У сфері дотримання інструкцій вона набрала 93.4 на IFEval.

Щоб зрозуміти розрив у кількості параметрів: DeepSeek V3.2 має 671 мільярд параметрів — приблизно в 224 рази більше, ніж VibeThinker-3B. GLM-5 від Zhipu AI має 744 мільярди параметрів. Kimi K2.5 від Moonshot AI перевищує 1 трильйон. 3 мільярди параметрів VibeThinker-3B могли б працювати на споживчому ноутбуці.

Дослідники представляють цей результат не як аномалію, а як свідчення ширшого теоретичного твердження. Вони вводять так звану “Гіпотезу стиснення-покриття параметрів” (Parametric Compression-Coverage Hypothesis), яка стверджує, що різні типи можливостей ШІ мають фундаментально різні зв’язки з розміром моделі. Перевірені міркування — такі, як тестуються на математичних змаганнях та в задачах з кодування, де відповіді можна однозначно перевірити — є тим, що в статті називають “параметрично щільною” здатністю: такою, що може бути стиснута до компактного ядра. Навпаки, відкриті знання є “параметрично експансивними”, вимагаючи широкого охоплення фактів, концепцій та граничних випадків, що неминуче потребує більше параметрів.

Стаття прямо визнає це розмежування. На GPQA-Diamond, бенчмарку знань з наукових дисциплін на рівні аспірантури, VibeThinker-3B показала лише 70.2 — значно нижче, ніж 91.9, досягнуті Gemini 3 Pro, та 87.0, досягнуті Claude Opus 4.5. Автори пишуть, що цей розрив “узгоджується з нашим твердженням, а не суперечить йому: головний висновок не в тому, що 3-мільярдна модель повністю замінила провідні загальноцільові моделі, а в тому, що невелика модель може досягти першокласної продуктивності у багатьох завданнях, що вимагають перевірених міркувань.”

Всередині чотириетапного конвеєра навчання, що живить крихітний механізм міркувань

VibeThinker-3B не створено з нуля. Вона проходить пост-тренування поверх Qwen2.5-Coder-3B, компактної базової моделі від команди Qwen компанії Alibaba, через те, що дослідники ШІ Sina Weibo називають “Принципом від спектру до сигналу” (Spectrum-to-Signal Principle) — багатоетапним конвеєром, вперше представленим у попередній роботі команди VibeThinker-1.5B у листопаді 2025 року.

Навчання відбувається у чотири основні фази. Перша — це двохетапний процес керованого тонкого налаштування (supervised fine-tuning) з використанням навчального планування (curriculum learning): модель спочатку тренується на широкій суміші даних з математики, коду, наукових міркувань, загального діалогу та виконання інструкцій, а потім переходить до відібраної підмножини складніших, довгострокових завдань на міркування. На другому етапі зразки з траєкторіями міркувань, коротшими за 5000 токенів, відкидаються, а завдання, які VibeThinker-1.5B може вирішити більш ніж у 75% випадків, фільтруються, змушуючи модель зосередитися на справді складних викликах.

Друга фаза застосовує навчання з підкріпленням (reinforcement learning) у кількох доменах — математика, код та STEM — використовуючи алгоритм команди MaxEnt-Guided Policy Optimization (MGPO), який надає пріоритет тренуванню на завданнях на межі поточної здатності моделі, а не на завданнях, які вона вже легко вирішує або вважає неможливими. Важливо зазначити, що команда виявила: стратегія, яка добре працювала при масштабі 1.5B — поступове розширення контекстного вікна під час навчання з підкріпленням — насправді погіршувала продуктивність при 3B. Вони висувають гіпотезу, що сильніший початковий чекпойнт означав, що обрізання траєкторій міркувань під час розминки більше не видаляло шум, а порушувало дійсні патерни міркувань. Рішенням було тренування з єдиним контекстним вікном у 64 000 токенів протягом усього процесу.

У межах фази навчання з підкріпленням для математики команда також впроваджує так зване “Long2Short Math RL” — вторинний етап оптимізації, який перерозподіляє винагороди на користь коротших правильних рішень порівняно з довшими, зменшуючи багатослівність без шкоди для точності. Ця техніка використовує перерозподіл винагороди з нульовою сумою, що дозволяє уникнути упередженості загального сигналу винагороди, водночас спонукаючи модель до більш ефективних міркувань.

Третя фаза витягує високоякісні траєкторії міркувань з чекпойнтів, навчених з підкріпленням, і дистилює їх назад у єдину модель через кероване тонке налаштування. Команда використовує “оцінку потенціалу навчання” (learning-potential score) — по суті, перплексію моделі-студента на кожній траєкторії вчителя — для пріоритезації траєкторій, які є правильними, але які студент ще не засвоїв. Фінальна фаза, названа Instruct RL, застосовує навчання з підкріпленням до завдань дотримання інструкцій, використовуючи комбінацію валідаторів на основі правил для обмежень формату та моделей винагороди на основі рубрик для оцінки якості у відкритому форматі.

Франческо Бертоллотті, дослідник ШІ, який першим відзначив статтю у X, лаконічно описав підхід: “Ці результати були досягнуті в основному через доопрацювання після тренування на Qwen2.5-Coder. Стаття не надає багато деталей, але схоже, що вони дистилюють з RL ckpts, а потім проводять фінальний RL-based instruct RL”. Його пост зібрав понад 161 000 переглядів.

Тестування в реальному світі виявляє розрив між показниками бенчмарків та практичною ефективністю ШІ

На кожну захоплену реакцію стаття викликала настільки ж рішуче заперечення. Наукова спільнота ШІ в середині 2026 року стала надзвичайно обережною щодо заяв, заснованих на бенчмарках, і VibeThinker-3B з’явилася в середовищі, підготовленому до підозр.

“Бенчмарки — це буквальне зіставлення шаблонів для однофайлового кодування”, — написав @BigMoonKR у X. “Це не має жодного відношення до реальної роботи з кодом. Я не знаю, як люди досі цього не розуміють”.

“Benchmaxxing” (максимізація бенчмарків), — заявив @oflu_bedirhan, використовуючи термін, що став скороченням у спільноті ШІ для моделей, які, здавалося б, оптимізовані спеціально для показників бенчмарків за рахунок корисності в реальному світі.

Найрізкіша критика надійшла від користувачів, які фактично завантажили та протестували модель. “Щойно спробував повну точність”, — написав @politilols. “Вона навіть не знає, що таке UV-скрипт (найпопулярніший інструмент розробки на Python). Я такого не бачив в жодному LLM принаймні рік. Benchmaxxed.” Коли Бертоллотті відповів, що модель, здається, більше зосереджена на математичних міркуваннях, ніж на практичному кодуванні, користувач заперечив: “Вони включають показник LiveCodeBench. Немає жодного шансу, що це відображає реальний стан моделі”.

@Itsdotdev підняв структурну критику: “Подивіться на самі бенчмарки, і це, ймовірно, не буде так шокуюче. Чому немає DeepSWE? Чому немає стандартних бенчмарків, які використовують SOTA-провайдери?”. Користувач @AvenirReym поставив більш діагностичне запитання: “Якщо вона тримається на бенчмарку, створеному після дати зрізу даних для тренування моделі, це реально. Якщо вона виграє лише на наборах AIME-style, які циркулюють роками, це витік даних”.

Автори статті, схоже, передбачили ці заперечення. У технічному звіті зазначено, що навчальні набори “пройшли сувору деконтамінацію бенчмарків”, включаючи фільтрацію на основі n-грамів для видалення “n-грамних перетинів з оціночними наборами”.

Оцінка змагань LeetCode — яка охоплює змагання з 25 квітня по 31 травня 2026 року, дати, що передують будь-якій правдоподібній даті зрізу навчальних даних — становить найдієвіший захист від проблем забруднення даних. На цих змаганнях VibeThinker-3B пройшла 123 з 128 спроб з першої спроби, показник 96.1%, що перевищив GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 та Claude Opus 4.6 за однакових умов оцінки.

Проте, звіти реальних користувачів свідчать про значний розрив між показниками бенчмарків та практичною корисністю — явище, яке стало звичним для всієї галузі. “У LM Studio вона добре відповідає лише на перше запитання, на наступні запитання відповідає на перше”, — повідомив @luismolinaab.

Чому компанія з соціальних мереж могла знайти прогалину в гіпотезі масштабу

Навіть найзавзятіші критики визнали, що досягнення цих показників бенчмарків при 3 мільярдах параметрів — незалежно від того, наскільки вони переносяться на виробничі випадки використання — є значним інженерним досягненням. “Навіть якщо це benchmaxxing, робити це з 3 мільярдами параметрів — захопливо, це показує, наскільки швидко ця галузь прогресує”, — написав @rohityin.

Це спостереження підводить до питання, яке поглинуло індустрію ШІ з моменту появи гіпотези масштабу: чи завжди більше краще? Загальноприйнята думка, чітко сформульована в законах масштабу Чінчілли (Chinchilla scaling laws) і підкріплена комерційним домінуванням все більших базових моделей, стверджує, що більша кількість параметрів та більше навчальних даних стабільно покращують продуктивність. Економічний висновок вражає: навчання та розгортання передових моделей коштує десятки або сотні мільйонів доларів, створюючи величезні бар’єри для входу.

VibeThinker-3B кидає виклик цьому консенсусу — але лише частково. Стаття ретельно окреслює межі своїх тверджень, розрізняючи завдання з “чіткими сигналами верифікації” та ті, що вимагають широких фактичних знань. Гіпотеза стиснення-покриття параметрів прямо стверджує, що малі моделі не можуть замінити великі моделі в усіх аспектах.

“Справжнє значення VibeThinker-3B полягає не в доведенні того, що 3-мільярдна модель може замінити великомасштабні універсальні системи”, — йдеться в статті, — “а скоріше в наданні конкретного емпіричного сигналу: розробка компактних моделей більше не є просто пасивним компромісом для ефективності розгортання або контролю витрат; вона виникає як перспективна дослідницька траєкторія, яка є фундаментально доповнюючою до традиційної парадигми масштабування параметрів”.

Можливо, найдивовижнішим елементом цієї роботи є її походження. Sina Weibo — публічно торгується на Nasdaq та в Гонконгу, з ринковою капіталізацією, що коливається в межах кількох мільярдів доларів — не є компанією, яку зазвичай асоціюють з передовими дослідженнями ШІ. Однак серія VibeThinker є другим великим внеском Weibo у відкритий ШІ за останні сім місяців.

VibeThinker-1.5B, випущена в листопаді 2025 року, продемонструвала, що модель з лише 1.5 мільярдом параметрів може перевершити оригінальний DeepSeek R1 на кількох математичних бенчмарках — результат, якого команда досягла, за їхніми словами, за витратами на пост-тренування лише $7 800, порівняно з оціненими $294 000 для DeepSeek R1.

Дослідницька команда невелика — дев’ять авторів, усі перераховані як співробітники Sina Weibo Inc. Модель випущена під ліцензією MIT, однією з найдозволяючіших ліцензій відкритого програмного забезпечення, а ваги вільно доступні для завантаження з Hugging Face та ModelScope. Протягом першого дня випуску члени спільноти вже створили квантовані версії GGUF та похідні моделі.

Маленькі моделі, великі наслідки та питання, яке індустрія ШІ більше не може ігнорувати

Найчеснішою оцінкою VibeThinker-3B може бути те, що вона одночасно менше і більше, ніж свідчать бенчмарки. Менше, тому що модель, яка має труднощі з базовими знаннями популярних інструментів розробки, навряд чи замінить будь-якого виробничого помічника з кодування найближчим часом. Більше, тому що глибинне розуміння — що здатність до міркувань і фактичні знання частково розділені, і що перші можна стискати набагато агресивніше, ніж передбачалося раніше — має глибокі наслідки для того, як індустрія думає про дизайн моделей, економіку розгортання та доступність передових можливостей ШІ.

Якщо Гіпотеза стиснення-покриття параметрів виявиться вірною, вона пропонує майбутнє, в якому малі, спеціалізовані механізми міркувань працюватимуть поряд з великими моделями, багатими на знання, у гібридних архітектурах — бачення, де 3-мільярдна модель оброблятиме логічне навантаження, тоді як більша система надаватиме фактичну основу. Така архітектура могла б різко знизити вартість розгортання можливостей міркувань ШІ, потенційно приносячи математичні та кодувальні можливості на рівні змагань на пристрої з помірним обладнанням.

“Цікавим є те, що ми починаємо відокремлювати знання від міркувань”, — написав @RealLambdaFlux у X. “Мала модель з сильним пост-тренуванням може перевищити свій розмір у завданнях з чітким зворотним зв’язком”.

@cmitsakis запропонував практичний фінал: “Я думаю, що малі моделі — це майбутнє для агентів, тому що вони можуть використовувати інструменти для отримання знань, і вони можуть працювати швидко та дешево”.

Чи прийде це майбутнє через VibeThinker-3B зокрема, чи через десятки команд, які зараз змагаються у відтворенні та розширенні цих результатів, стаття вже досягла того, що жоден показник бенчмарку не може повністю охопити.

Вона змусила спільноту ШІ зіткнутися з незручною можливістю: що роками індустрія, можливо, витрачала мільярди доларів на масштабування параметрів для покращення такого роду інтелекту, який міг би вміститися, протягом усього цього часу, на ноутбуці. Ваги є загальнодоступними. Код відкритий. І найважливіший тест — не на будь-якому лідерборді, а чи зможе хтось зробити таку маленьку модель справді корисною в реальному світі.

Прогноз ІТ-Блогу: Очікується, що успіх VibeThinker-3B стимулюватиме подальші дослідження компактних моделей, спрямованих на оптимізацію здатності до міркувань. Це може призвести до появи нових архітектур, які ефективно поєднують малі, потужні “мозкові центри” з іншими інструментами для доступу до знань, революціонізуючи розгортання ШІ на пристроях.

Джерело новини: venturebeat.com

Результати бенчмарків, що кидають виклик законам масштабу сучасного ШІ

Всередині чотириетапного конвеєра навчання, що живить крихітний механізм міркувань

Тестування в реальному світі виявляє розрив між показниками бенчмарків та практичною ефективністю ШІ

Чому компанія з соціальних мереж могла знайти прогалину в гіпотезі масштабу

Маленькі моделі, великі наслідки та питання, яке індустрія ШІ більше не може ігнорувати

Залишити відповідьСкасувати відповідь