На третину запитів великі мовні моделі відповідають помилково: аудит стає складнішим

Штучний інтелект (ШІ) вже інтегрований у реальні робочі процеси підприємств, проте приблизно кожна третя спроба виконання стандартизованих завдань досі завершується невдачею. Цей розрив між можливостями та надійністю є визначальним операційним викликом для ІТ-лідерів у 2026 році, згідно з дев’ятим щорічним звітом AI Index від Stanford HAI.

Така неоднорідна, непередбачувана продуктивність — це те, що AI Index називає «зубчастою межею» (jagged frontier), терміном, запровадженим дослідником ШІ Ітаном Моліком для опису сфери, де ШІ сягає успіху, а потім раптово зазнає поразки.

«Моделі ШІ можуть виграти золоту медаль на Міжнародній математичній олімпіаді, — зазначають дослідники Stanford HAI, — але все ще не можуть надійно визначати час».

Як моделі просунулися у 2025 році

Впровадження ШІ в корпоративному секторі досягло 88%. Серед помітних досягнень у 2025 та на початку 2026 року:

Найсучасніші моделі за один рік покращили свої показники на 30% у тесті Humanity’s Last Exam (HLE), який охоплює 2500 питань з математики, природничих наук, стародавніх мов та інших спеціалізованих галузей. HLE було розроблено як складний тест для ШІ, але сприятливий для людських експертів.
Провідні моделі показали результат понад 87% у тесті MMLU-Pro, що перевіряє багатоетапне мислення на основі 12 000 питань, перевірених людьми, з більш ніж десятка дисциплін. Це ілюструє, «наскільки конкурентною стала передова галузь у завданнях, що вимагають широких знань», — зазначають дослідники Stanford HAI.
Найкращі моделі, включаючи Claude Opus 4.5, GPT-5.2 та Qwen3.5, показали результати від 62,9% до 70,2% на τ-bench. Цей бенчмарк тестує агентів на реальних завданнях у типових сценаріях, що передбачають спілкування з користувачем та використання зовнішніх інструментів або API.
Точність моделей у тесті GAIA, який оцінює загальних ШІ-асистентів, зросла приблизно з 20% до 74,5%.
Ефективність агентів у тесті SWE-bench Verified за один рік зросла з 60% до майже 100%. Цей бенчмарк оцінює здатність моделей вирішувати реальні проблеми з програмним забезпеченням.
Рівень успішності у тесті WebArena зріс з 15% у 2023 році до 74,3% на початку 2026 року. Цей бенчмарк створює реалістичне веб-середовище для оцінки автономних ШІ-агентів, доручаючи їм завдання пошуку інформації, навігації по сайту та конфігурації контенту.
Продуктивність агентів у тесті MLE-bench, що оцінює можливості машинного навчання (ML), зросла з 17% у 2024 році до приблизно 65% на початку 2026 року.

ШІ-агенти демонструють прогрес у сфері кібербезпеки. Наприклад, найсучасніші моделі вирішили 93% завдань у Cybench — бенчмарку, що включає 40 професійних завдань у шести категоріях «захопи прапор», зокрема криптографію, веб-безпеку, реверс-інжиніринг, криміналістику та експлуатацію вразливостей. Це значно вище, ніж 15% у 2024 році, і свідчить про «найвищі темпи покращення», що вказує на те, що завдання кібербезпеки «добре відповідають поточним можливостям агентів».

Генерація відео також значно еволюціонувала за останній рік; моделі тепер здатні відтворювати поведінку об’єктів. Наприклад, модель Veo 3 від Google DeepMind, протестована на більш ніж 18 000 згенерованих відео, продемонструвала здатність симулювати плавучість та вирішувати лабіринти без спеціального навчання на цих завданнях.

«Моделі генерації відео більше не просто створюють реалістичний контент, — пишуть дослідники. — Деякі з них починають вивчати, як насправді працює фізичний світ».

Загалом, ШІ застосовується у багатьох сферах підприємств — управління знаннями, розробка програмного забезпечення та ІТ, маркетинг та продажі — і розширюється у спеціалізовані галузі, такі як оподаткування, обробка іпотечних кредитів, корпоративні фінанси та юридичні міркування, де точність варіюється від 60% до 90%.

«Можливості ШІ не досягли плато, — стверджує Stanford HAI. — Вони прискорюються і охоплюють більше людей, ніж будь-коли раніше».

Можливості ШІ стрімко зростають, але надійність відстає

Мультимодальні моделі тепер досягають або перевищують людські показники у наукових питаннях рівня PhD, мультимодальному міркуванні та олімпіадній математиці. Наприклад, Gemini Deep Think здобув золоту медаль на Міжнародній математичній олімпіаді (IMO) 2025 року, вирішивши п’ять із шести завдань повністю природною мовою протягом 4,5-годинного ліміту — помітне покращення порівняно зі срібним рівнем у 2024 році.

Проте, ці самі ШІ-системи зазнають невдач приблизно в одній з трьох спроб і мають проблеми з базовими завданнями сприйняття, згідно з Stanford HAI. У тесті ClockBench, що охоплює 180 дизайнів годинників та 720 питань, Gemini Deep Think досяг лише 50,1% точності, порівняно з приблизно 90% для людей. GPT-4.5 High показав майже ідентичний результат — 50,6%.

«Багато мультимодальних моделей все ще стикаються з тим, що більшості людей здається звичайним завданням: визначати час, — зазначає звіт Stanford HAI. — Здавалося б, просте завдання поєднує візуальне сприйняття з простою арифметикою, ідентифікацією стрілок годинника та їх положення, а також перетворенням цієї інформації на значення часу. Зрештою, помилки на будь-якому з цих етапів можуть призвести до каскаду помилок і неправильних результатів», — пояснюють дослідники.

Під час аналізу моделям показували різні стилі годинників: стандартні аналогові, годинники без секундної стрілки, ті, де стрілки були стрілками, інші з чорним циферблатом або римськими цифрами. Але навіть після доналаштування на 5000 синтетичних зображень моделі покращили результати лише на звичних форматах і не змогли адаптуватися до реальних варіацій (як-от спотворені циферблати чи тонші стрілки). Дослідники дійшли висновку, що коли моделі плутали годинникову та хвилинну стрілки, їхня здатність інтерпретувати напрямок погіршувалася, припускаючи, що проблема полягає не лише в даних, а й в інтеграції кількох візуальних сигналів.

«Навіть коли моделі скорочують розрив із людськими експертами в завданнях, що вимагають глибоких знань, цей вид візуального міркування залишається постійним викликом», — зауважує Stanford HAI.

«Галюцинації» та багатоетапне мислення залишаються головними прогалинами

Навіть попри те, що моделі продовжують прискорювати свої міркування, «галюцинації» (генерація неправдивої, вигаданої інформації) залишаються серйозною проблемою. В одному з тестів рівень «галюцинацій» серед 26 провідних моделей варіювався від 22% до 94%. Точність деяких моделей різко знижувалася під час ретельної перевірки — наприклад, точність GPT-4o впала з 98,2% до 64,4%, а DeepSeek R1 — з понад 90% до 14,4%. З іншого боку, Grok 4.20 Beta, Claude 4.5 Haiku та MiMo-V2-Pro продемонстрували найнижчі показники.

Крім того, моделі продовжують мати проблеми з багатоетапними робочими процесами, навіть коли їм доручають їх дедалі більше. Наприклад, у бенчмарку τ-bench — який оцінює використання інструментів та багатооборотні міркування — жодна модель не перевищила 71%, що свідчить про те, що «керування багатооборотними розмовами з одночасним правильним використанням інструментів та дотриманням політик залишається складним завданням навіть для найсучасніших моделей», — йдеться у звіті Stanford HAI.

Моделі стають непрозорими

Провідні моделі тепер «майже не відрізняються» одна від одної за продуктивністю, зазначає звіт Stanford HAI. Моделі з відкритими вагами (open-weight models) стають конкурентоспроможнішими, ніж будь-коли, але вони зближуються.

Оскільки можливості більше не є «чітким диференціатором», конкурентний тиск зміщується на вартість, надійність та реальну корисність. Передові лабораторії розкривають менше інформації про свої моделі, методи оцінки швидко втрачають актуальність, а незалежне тестування не завжди може підтвердити показники, заявлені розробниками.

Як зазначає Stanford HAI: «Найбільш потужні системи тепер найменш прозорі». Код для тренування, кількість параметрів, розміри датасетів та тривалість розробки часто приховують — компанії, включаючи OpenAI, Anthropic та Google. Прозорість загалом знижується: у 2025 році 80 зі 95 моделей були випущені без відповідного коду для тренування, тоді як лише чотири зробили свій код повністю відкритим.

Крім того, після зростання між 2023 та 2024 роками, показники в індексі прозорості фундаментальних моделей (Foundation Model Transparency Index), який ранжує великих розробників на основі 100 показників прозорості, відтоді знизилися. Середній бал зараз становить 40, що на 17 пунктів менше. «Зберігаються значні прогалини в розкритті інформації про дані для тренування, обчислювальні ресурси та вплив після розгортання», — згідно зі звітом.

Бенчмаркінг ШІ стає складнішим — і менш надійним

Бенчмарки, що використовуються для вимірювання прогресу ШІ, стикаються зі зростаючими проблемами надійності, а рівень помилок сягає 42% у широко використовуваних оцінках. «ШІ тестується більш амбітно в галузях міркування, безпеки та виконання реальних завдань», — зазначає звіт Stanford, проте «цими вимірюваннями стає все важче довіряти».

Ключові виклики включають:

«Рідкісна та знижувана» звітність про упередженість (bias) з боку розробників.
Забруднення бенчмарків, коли моделі піддаються впливу тестових даних; це може призвести до «помилково завищених» показників.
Розбіжності між результатами, заявленими розробниками, та незалежним тестуванням.
«Погано сконструйовані» оцінки, що не мають документації, деталей про статистичну значущість та скриптів для відтворення.
«Зростаюча непрозорість і нестандартні запити» (prompting), які роблять порівняння моделей ненадійними.

«Навіть коли результати бенчмарків технічно правильні, висока продуктивність у бенчмарках не завжди перетворюється на реальну корисність», — йдеться у звіті. Крім того, «можливості ШІ випереджають бенчмарки, розроблені для їх вимірювання».

Це призводить до «насичення бенчмарків», коли моделі досягають настільки високих показників, що тести вже не можуть їх розрізнити. Все складніші, інтерактивні форми інтелекту стають все важчими для бенчмаркінгу. Дехто закликає до оцінок, що вимірюють співпрацю людини та ШІ, а не продуктивність ШІ окремо, але ця техніка знаходиться на ранніх стадіях розробки.

«Оцінки, які мали бути складними протягом років, насичуються за місяці, стискаючи часове вікно, протягом якого бенчмарки залишаються корисними для відстеження прогресу», — повідомляє Stanford HAI.

Чи досягли ми «піку даних»?

Оскільки розробники все більше покладаються на вимагаючі великих обсягів даних процеси висновку (inference), зростає занепокоєння щодо вузьких місць у даних та сталого масштабування. Провідні дослідники попереджають, що доступний пул високоякісних людських текстів та веб-даних «вичерпаний» — стан, який називають «піком даних».

Гібридні підходи, що поєднують реальні та синтетичні дані, можуть «значно прискорити навчання» — іноді в 5-10 разів — а менші моделі, навчені виключно на синтетичних даних, показали потенціал для вузькоспеціалізованих завдань, таких як класифікація або генерація коду, згідно з Stanford HAI. Синтетично згенеровані дані можуть бути ефективними для покращення продуктивності моделей у пост-тренувальних налаштуваннях, включаючи доналаштування, вирівнювання, налаштування інструкцій та навчання з підкріпленням (RL). Однак «ці досягнення не поширилися на великі, загального призначення мовні моделі».

Замість «безрозсудного» масштабування даних, дослідники звертаються до обрізання, курування та вдосконалення вхідних даних, а також покращують продуктивність шляхом очищення міток, дедуплікації зразків та побудови загалом вищої якості датасетів.

«Обговорення доступності даних часто не враховують важливий зсув у недавніх дослідженнях ШІ, — йдеться у звіті. — Зростання продуктивності все більше зумовлене підвищенням якості існуючих датасетів, а не придбанням нових».

Відповідальний ШІ відстає

Хоча інфраструктура для відповідального ШІ зростає, прогрес був «нерівномірним» і не встигає за швидким зростанням можливостей, згідно з Stanford HAI. Хоча майже всі провідні розробники найсучасніших моделей ШІ звітують про результати з тестів на можливості, відповідна звітність щодо безпеки та відповідальності є непослідовною та «плямою».

Задокументовані інциденти з ШІ значно зросли порівняно з попереднім роком: 362 у 2025 році проти 233 у 2024 році. І хоча кілька найсучасніших моделей отримали рейтинги безпеки «Дуже добре» або «Добре» за стандартного використання (згідно з бенчмарком AILuminate, який оцінює генеративний ШІ за 12 «небезпечними» категоріями), показники безпеки знизилися для всіх моделей при тестуванні на спроби «джейлбрейку» (обхід захисних механізмів) за допомогою ворожих запитів.

«ШІ-моделі добре показують себе в тестах безпеки за звичайних умов, але їхній захист слабшає під час навмисних атак», — зазначає Stanford HAI. Додаткову складність створює те, що розробники повідомляють, що покращення одного аспекту, такого як безпека, може погіршити інший, наприклад, точність. «Інфраструктура для відповідального ШІ зростає, але прогрес був нерівномірним, і він не встигає за швидкістю розгортання ШІ», — повідомляють дослідники Stanford.

Дані Stanford роблять одне зрозумілим: розрив, який має значення у 2026 році, — це не розрив між продуктивністю ШІ та людини. Це розрив між тим, що ШІ може зробити в демонстрації, і тим, що він надійно робить у реальному виробництві. Зараз — за умов меншої прозорості від розробників та бенчмарків, що насичуються раніше, ніж стають корисними — цей розрив виміряти складніше, ніж будь-коли.

Як захиститися (Порада ІТ-Блогу): Перед впровадженням нових ШІ-інструментів у критично важливі бізнес-процеси, проведіть ретельне тестування їхньої надійності та точності у реальних умовах, а не покладайтеся лише на заявлені показники. Завжди застосовуйте додаткові контролі та людський нагляд для завдань, де помилки можуть мати серйозні наслідки.

Дізнатися більше на: venturebeat.com