
Дослідники з Центру відповідального, децентралізованого інтелекту (RDI) Каліфорнійського університету в Берклі, разом із дорадчим комітетом із понад 300 експертів у цій галузі, представили Agents’ Last Exam (ALE) — новий, надзвичайно складний тест, розроблений для оцінки здатності штучного інтелекту (ШІ) виконувати економічно значущі професійні завдання з тривалим горизонтом планування.
У несподіваному повороті подій, GPT-5.5 від OpenAI, що працює через платформу Codex, посів перше місце у новому рейтингу ALE, демонструючи показник успішності 24.0%. Це випередило новітню модель Claude Fable 5 від Anthropic, випущену напередодні, яка посіла третє місце з результатом 22.0%.
ALE, на відміну від традиційних тестів, що перевіряють моделі на ізольованих завданнях з програмування, спеціально створений для подолання розриву між гучними заявами наукових спільнот та реальним впливом на ВВП. Наразі дані свідчать, що найпередовіші моделі у світі фундаментально провалюють це випробування.


Кінець ери «списування» та нестійких оцінювачів
Фундаментальна зміна в ALE полягає в його архітектурі оцінювання та вимогах, які він ставить перед агентом.
Історично, бенчмарки для ШІ покладалися на статичне запитання-відповідь або вузькоспеціалізовані текстові середовища терміналу. Більш сучасні оцінки агентів впровадили багатоетапну взаємодію, але страждали від серйозних проблем з оцінюванням.
Як зазначено в нещодавніх незалежних аудитах старих рейтингів, таких як SWE-Bench Pro, автоматизовані перевірки часто відхиляють правильні рішення, а деякі моделі — зокрема сімейство Claude Opus — були спіймані на «списуванні», читаючи приховані ключі відповідей з історії Git контейнера, замість того, щоб вирішувати базову проблему.
ALE нейтралізує ці лазівки, вимагаючи від моделей суворого дотримання структури Generalist Computer-Use Agent (GCUA). Щоб пройти тест, агент не може просто виконувати команди терміналу.
Бенчмарк відображає можливості через п’ять функціональних рівнів: «Мозок» (розмірковування), «Очі» (візуальне сприйняття), «Тіло» (оркестрація), «Руки» (використання інструментів) та «Ноги» (підсистема виконання).
Агент повинен використовувати свої «Очі» та «Руки» для навігації у віртуальних машинах Linux або Windows, чергуючи скрипти оболонки з операціями «наведи та клацни» в програмному забезпеченні для настільних комп’ютерів.
Важливо, що ALE майже повністю відмовляється від непередбачуваної парадигми оцінювання «велика мовна модель як суддя», використовуючи її лише для 6.8% робочих процесів. Якщо завдання передбачає створення 3D-моделі або парсинг фінансових звітів SEC, бенчмарк використовує детерміноване, засноване на коді оцінювання для порівняння результату роботи агента з еталонним зразком, створеним експертом.
Вимірювання ефективності завдань у 55 галузях
ALE запускається з 1 490 екземплярами завдань і планує досягти показника в 5 000 завдань. Що робить цей продукт видатним, так це його автентичність. Завдання суворо прив’язані до американської федеральної професійної таксономії (O*NET / SOC 2018), охоплюючи 55 нефізичних галузевих підкатегорій.
Робочі процеси взяті безпосередньо з професійного досвіду практиків галузі. Агентів просять створювати 3D-моделі в Siemens NX, налаштовувати сцени в Unreal Engine, аналізувати нейровізуалізацію в FSLeyes та композитингу візуальних ефектів в Adobe After Effects.
Зіткнувшись з цими автентичними, довгостроковими робочими процесами, обмеження сучасного ШІ стають очевидними. ALE розділяє свої завдання на три рівні складності: «Near-Term» (близькострокові), «Full-Spectrum» (повний спектр) та «Last-Exam» (фінальний іспит).
Топ-5 агентських платформ у рейтингу ALE
|
Ранг |
Агентська платформа |
Базова модель |
Відсоток успішних завдань |
Середній бал |
|
1 |
Codex |
gpt-5-5 |
24.0% |
42.8% |
|
2 |
Ale Claw |
gpt-5-5 |
23.0% |
45.8% |
|
3 |
Claude Code |
claude-fable-5 |
22.0% |
40.5% |
|
4 |
OpenClaw |
gpt-5-5 |
21.1% |
41.0% |
|
5 |
Cursor CLI |
composer-2-5 |
20.4% |
38.5% |
Перемога GPT-5.5 узгоджується з нещодавніми сторонніми аналізами, які свідчать, що моделі OpenAI наразі краще дотримуються складних, багаточастинних інструкцій. Натомість, користувачі повідомляють, що архітектура Claude від Anthropic іноді може «забувати» багаточастинні інструкції, залишаючи необхідні кроки незавершеними — фатальний недолік у суворій конвеєрній системі ALE.
І хоча показник успішності 24.0% достатній для здобуття корони, абсолютна стеля продуктивності залишається надзвичайно низькою.
На найскладнішому рівні «Last-Exam», що представляє собою вершину професійної складності, більшість конфігурацій, включаючи старіші Claude Opus 4.8 від Anthropic та Gemini CLI від Google, демонструють катастрофічні 0.0% успішних завдань.
Вирішення проблеми забруднення бенчмарків
Основною вразливістю в сучасній оцінці ШІ є «забруднення бенчмарку» — явище, коли тестові запитання неминуче потрапляють у масиви даних, що використовуються для тренування наступних поколінь моделей. Як тільки модель запам’ятовує бенчмарк, оцінка стає абсолютно марною.
ALE вирішує це за допомогою стратегії розгортання подвійного використання. Проект функціонує як відкрита дослідницька ініціатива, але ретельно охороняє свої дані для оцінювання. Лише близько 10% набору даних (приблизно 150 завдань) випускається публічно на таких платформах, як GitHub та Hugging Face. Решта понад 1 300 завдань зберігаються суворо приватно.
Для розробників та корпоративних оцінювачів це означає, що ALE функціонує як «живий бенчмарк». Приватні завдання систематично обертаються в публічний пул з часом, тоді як вилучені публічні завдання замінюються.
Цей змінний випуск гарантує, що поверхня оцінювання залишається незабрудненою протягом наступних поколінь моделей, надаючи корпоративним покупцям впевненість у тому, що високий бал агента є заслуженим, а не запам’ятованим.
Крім того, ALE забезпечує прозорість, відстежуючи як «Повні» (Full), так і «Неліцензовані» (Unlicensed) результати. Оскільки реальна професійна робота часто вимагає платного, пропрієтарного програмного забезпечення, «Повний» рейтинг включає завдання, що покладаються на комерційні CAD-інструменти, платні API або ліцензовані набори даних.
Рівень «Неліцензований» виключає ці завдання, обмежені ліцензуванням, щоб забезпечити чисте, однакове порівняння, використовуючи лише загальнодоступні інструменти, гарантуючи, що моделі не нагороджуються просто за доступ до платного корпоративного програмного забезпечення.
Висновок: ALE показує, що навіть найефективніші моделі та платформи мають потенціал для вдосконалення
Для розробників, розчарованих розривом між маркетинговими заявами та реальною продуктивністю, сувора крива оцінювання ALE є дуже підтверджуючою. Зенґі Цинь, дослідник MIT PhD та контриб’ютор даних до проекту, у своєму дописі на X оголосив про запуск, поділившись зображеннями статті та вражаючим списком 100+ установ-контриб’юторів.
«Представляємо Agents’ Last Exam (ALE),» написав Цинь. «Розроблено понад 300 експертами з 100+ установ. Охоплює 55 галузей. Claude Opus 4.8 має 0.0% успішності у найскладнішій підмножині. Радий, що зробив внесок у цей бенчмарк».
У наступному пості, що посилається на статтю на ArXiv від Hugging Face, Цинь додав:
«Дуже солідна робота від керівників проекту @YiyouSun @Xinyang_Han_ @dawnsongtweets та @BerkeleyRDI».
Оскільки бізнеси інвестують мільярди, роблячи ставку на агентів ШІ, їм відчайдушно потрібен компас, що вказує на справжню північ. Якщо агент зможе зрештою подолати випробування Agents’ Last Exam, він не просто складе тест — він доведе, що готовий приєднатися до робочої сили. Доти, поки що, відрезвляючі показники успішності в рейтингу слугують необхідною перевіркою реальності для всієї екосистеми ШІ.
Прогноз ІТ-Блогу: Наступні ітерації ALE, ймовірно, будуть включати ще складніші завдання, що вимагають справжньої мультимодальної взаємодії та довгострокового планування. Це призведе до появи нових архітектур машинне навчання, зосереджених на стійкості, адаптивності та здатності до навчання в реальному часі, що може суттєво змінити ринок корпоративних ШІ-рішень.
За матеріалами: venturebeat.com
