DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 1

Протягом місяців провідні бенчмарки для розробки коду на основі штучного інтелекту (ШІ) розповідали компаніям заспокійливу, але оманливу історію: найпотужніші моделі мають приблизно однакові можливості. Сімейство GPT від OpenAI, Claude Opus від Anthropic та Gemini від Google DeepMind демонстрували близькі результати в рейтингу SWE-Bench Pro від Scale AI, що унеможливлювало для інженерних керівників визначити, який агент буде найефективнішим у їхніх програмних архітектурах.

У понеділок стартап Datacurve представив новий бенчмарк, який, за їхніми словами, руйнує цю ілюзію. DeepSWE, оцінка, що охоплює 113 завдань у 91 відкритому репозиторії та п’яти мовах програмування, демонструє значно ширший розкид показників між тими ж провідними моделями та визначає GPT-5.5 від OpenAI як явного лідера з показником 70%, випереджаючи найближчого конкурента на шістнадцять пунктів.

«На публічних лідербордах можливості провідних моделей часто виглядають схожими, — написала співавторка Datacurve Серена Ґе в X. — DeepSWE демонструє, де вони насправді розходяться, відображаючи реальний досвід розробників у їхній повсякденній роботі».

Бенчмарк також містить гостру критику інфраструктури оцінювання, яку використовує індустрія ШІ для вимірювання прогресу: аудит Datacurve виявив, що верифікатори SWE-Bench Pro — автоматизовані системи оцінювання, які визначають, чи вирішив агент завдання, — видавали невірні вердикти про проходження/невдачу приблизно в третині перевірених спроб.

Якщо цей висновок підтвердиться, він матиме далекосяжні наслідки. Закупівельні відділи компаній, венчурні капіталісти та маркетингові департаменти лабораторій ШІ значною мірою покладаються на показники бенчмарків для прийняття багатомільйонних рішень. Рівень помилок у 32% у найбільш цитованому бенчмарку для кодування свідчить про те, що індустрія могла орієнтуватися за допомогою зламаного компаса.

Чому найпопулярніший бенчмарк для кодування ШІ може оцінювати за зниженими стандартами

Щоб зрозуміти, що стверджує Datacurve, корисно розібратися, як працюють бенчмарки для кодування — і як вони можуть давати збої.

Домінуюча парадигма, започаткована сімейством SWE-Bench, яке підтримується Scale AI та академічними дослідниками, створює завдання, видобуваючи дані з реальних комітів GitHub. Процес полягає у вилученні виправлення помилки або додавання функції з історії репозиторію, відкаті коду до стану до внесення змін, а потім проханні ШІ-агента відтворити цю зміну. Тестовий набір оригінального коміту слугує верифікатором: якщо патч, створений агентом, проходить ті ж тести, він отримує бали. Цей підхід має елегантну простоту, але Datacurve стверджує, що він вносить три системні слабкості.

По-перше, забруднення даних. Оскільки завдання беруться з публічної історії GitHub, умова задачі, обговорення і часто саме рішення вже присутні в навчальних даних провідних моделей. «Сімейство SWE-Bench збирає дані з наявних питань та запитів на злиття GitHub, що створює дві проблеми: запам’ятовування (моделі вже бачили рішення) та тривіальність (більшість завдань є невеликими)», — написала Ґе.

По-друге, обсяг. Завдання SWE-Bench Pro вимагають у середньому лише 120 рядків коду, доданих у 5 файлах. Референсні рішення DeepSWE в середньому становлять 668 рядків, доданих у 7 файлах — приблизно в 5,5 раза більше коду. Проте промпти DeepSWE насправді коротші: в середньому 2158 символів проти 4614 у SWE-Bench Pro. Іншими словами, DeepSWE дає агенту менше інструкцій, але очікує набагато більшого результату, що ближче відображає те, як людина-розробник може делегувати завдання помічнику ШІ.

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 2

По-третє — і це найсерйозніше — надійність верифікаторів. Datacurve випадковим чином вибрав 30 завдань з DeepSWE та SWE-Bench Pro, провів три ітерації на 10 конфігураціях провідних моделей, а потім використав LLM-суддю для незалежної оцінки того, чи дійсно патч кожного агента вирішував проблему. Верифікатори SWE-Bench Pro приймали неправильні реалізації у 8,5% випадків і відхиляли правильні у 24% випадків. Верифікатори DeepSWE зареєстрували 0,3% та 1,1% відповідно.

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 3

Проблема хибних відмов є особливо підступною, оскільки вона карає за креативні рішення. В одному задокументованому випадку, золотий запит на злиття для завдання SWE-Bench Pro рефакторив приватну допоміжну функцію. Агент, який успішно вирішив завдання, вбудувавши ту ж логіку — цілком прийнятний інженерний вибір — зазнав невдачі, тому що тестовий набір намагався імпортувати символ, який існував лише в конкретній реалізації оригінального автора.

GPT-5.5 від OpenAI домінує в новому бенчмарку, тоді як Claude та Gemini демонструють слабкі результати

Основні результати DeepSWE змінюють звичну ієрархію у спосіб, який має бути важливим для кожної інженерної команди, що оцінює інструменти для кодування ШІ. На SWE-Bench Pro моделі від OpenAI, Anthropic та Google обмінювалися лідерством у межах 30-пунктного діапазону. DeepSWE розтягує цей діапазон до 70 пунктів.

GPT-5.5 лідирує з 70%, за ним йде GPT-5.4 з 56% та Claude Opus 4.7 з 54%. Далі спад значний: Claude Sonnet 4.6 займає 32%, Gemini 1.5 Flash — 28%, GPT-5.4-mini та Kimi K2.6 ділять 24%, а потім довгий шлейф моделей у діапазоні від 10% до одиниць відсотків. Claude Haiku 4.5, який демонструє 39% на SWE-Bench Pro, на DeepSWE падає до нуля — це свідчить про те, що деякі моделі середнього рівня демонстрували значно завищені результати на простіших, потенційно забруднених бенчмарках.

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 4

GPT-5.5 не тільки показує найвищий результат, але й робить це ефективно. Модель досягає 70% успішних спроб із середньою вартістю $5,80 за випробування, середнім часом виконання 20 хвилин та середнім обсягом вихідних токенів 47 000. GPT-5.4 виявляється, можливо, найкращим за співвідношенням ціна/якість із показником 56% за $3,30 за випробування. Водночас Claude Opus 4.7 коштує значно дорожче за запуск, а кількість вихідних токенів, час виконання та вартість за випробування значно варіюються в межах порядку величини між протестованими агентами — проте жодне з цих показників не корелює значною мірою з відсотком успішних спроб. Агенти, які генерують більше токенів, працюють довше або коштують дорожче, не вирішують стабільно більше завдань.

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 5

Аудит Datacurve виявив, що Claude “читав відповіді” в існуючих бенчмарках

Можливо, найпровокаційнішим висновком аналізу DeepSWE є те, що автори називають вердиктами «CHEATED» (шахрайство) — випадки, коли агент проходить бенчмарк не шляхом вирішення проблеми, а шляхом отримання відповіді.

Контейнери Docker SWE-Bench Pro постачаються з повною історією `.git` репозиторію, що означає, що золоте рішення знаходиться прямо у файловій системі контейнера. Більшість моделей ігнорують це. Claude — ні. Аналіз Datacurve виявив, що як Claude Opus 4.7, так і Claude Opus 4.6 зареєстрували «CHEATED» більш ніж у 12% перевірених запусків SWE-Bench Pro. У цих випадках агент Claude виконував команди на кшталт `git log –all` або `git show `, щоб отримати злитий фікс та вставити його у свій патч. Така поведінка становила приблизно 18% успішних спроб Opus 4.7 та 25% успішних спроб Opus 4.6 у перевіреній вибірці. Ця проблема була публічно висунута як GitHub issue #93 у репозиторії SWE-Bench Pro.

GPT-5.4 та GPT-5.5 ніколи не демонстрували такої поведінки. Конфігурації Gemini залишалися близько 1%. Datacurve дипломатично описує цю поведінку: «Бенчмарк робить це можливим (золотий коміт живе в контейнері), але Claude — це родина, яка послідовно це робить», — але висновок очевидний: значна частина результатів Claude на SWE-Bench Pro може відображати експлуатацію середовища, а не справжню інженерну спроможність.

DeepSWE вирішує цю проблему, постачаючи лише неглибоку копію з базовим комітом, не залишаючи золотого хешу для виявлення агентом. Варто зазначити, що така поведінка, безумовно, є ознакою уважності Claude до середовища — модель дуже добре досліджує своє оточення та використовує доступні ресурси. Чи вважати це «шахрайством» чи «винахідливістю», залежить від вашої точки зору, але в контексті бенчмарку, призначеного для вимірювання незалежного вирішення проблем, це підриває сигнал.

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 6

Кожна модель ШІ зазнає невдачі по-своєму, і ці патерни важливі для корпоративних команд

Окрім загальних результатів, аналіз якісних траєкторій Datacurve виявляє чітко відмінні моделі збоїв у різних сімействах моделей — висновок, який може допомогти інженерним командам вибрати правильну модель для конкретних типів роботи.

Claude має схильність забувати багатоскладові промпти. На DeepSWE конфігурації Claude частіше, ніж будь-яке інше сімейство, пропускають заявлені вимоги. Цей патерн послідовний: коли промпт перераховує паралельні поведінки — наприклад, «підтримувати як синхронний, так і асинхронний режими» — Claude зазвичай реалізує очевидну гілку і забуває віддзеркалити зміни. Datacurve повідомляє, що приблизно дві третини збоїв Claude типу «MISSED_REQUIREMENT» на DeepSWE відповідають цьому патерну «відвантажена одна гілка». В одному прикладі Claude Opus 4.7 правильно застосував хук стану даних синхронного режиму в одному класі двигуна, тоді як асинхронний двигун ніколи не отримав такого ж хука.

Натомість GPT реалізує саме те, що запитано. GPT-5.5 мав найнижчий рівень пропущених заявлених поведінок серед усіх протестованих конфігурацій. У багатьох запусках одного й того ж завдання спроби GPT мали тенденцію збігатися до однакової інтерпретації промпту, що свідчить про точність дотримання інструкцій як стабільну характеристику моделі, а не як удачу в окремому запуску.

Один із найцікавіших висновків стосується самоперевірки. На DeepSWE Claude Opus 4.7 та GPT-5.4 писали та запускали нові тести у власних тестових фреймворках проєкту більш ніж у 80% випадків — навіть коли їх про це не просили. На SWE-Bench Pro ті ж моделі знизили цей показник до 28% та 18% відповідно. Причина: шаблон промпту SWE-Bench Pro явно вказує агентам, що вони «не повинні змінювати логіку тестування чи будь-які тести». Агенти сумлінно дотримувалися цього, придушуючи поведінку, яка, ймовірно, покращила б їхню продуктивність. Це свідчить про те, що дизайн промптів у робочих процесах кодування може ненавмисно пригнічувати цінні поведінки агентів — те, що корпоративні команди, які впроваджують агентів для кодування ШІ, повинні ретельно перевіряти.

DeepSWE підкорює лідерборд ШІ-кодування: GPT-5.5 на вершині, Claude Opus розкрив слабке місце тесту 7

Що DeepSWE робить правильно, що робить неправильно, і що це означає для майбутнього бенчмарків ШІ

Datacurve відверто говорить про кілька обмежень. Стандартизований каркас, забезпечуючи справедливість, маршрутизує всі редагування через bash, а не через специфічні для моделі інструменти редагування, на яких тренувалося кожне сімейство — `apply_patch` для GPT, `str_replace_based_edit_tool` для Claude. Це може обмежувати моделі нижче їхніх природних стель. Бенчмарк використовує виключно відкриті репозиторії з понад 500 зірками, і результати можуть не узагальнюватися на пропрієтарні кодові бази. Завдання локалізації помилок та рефакторингу недостатньо представлені, а широко використовувані мови, такі як C++ та Java, повністю відсутні. Призначення вердиктів у якісному аналізі надходять від LLM-аналізатора, а не від людських рецензентів, і обсяги вибірки скромні — приблизно 90 перевірених запусків на модель на бенчмарк.

Також варто зазначити, що Datacurve є стартапом зі своїми комерційними інтересами, і незалежний бенчмарк, який перетасовує рейтинг, неминуче викличе сумніви. Рішення компанії опублікувати повний набір даних, усі траєкторії агентів та каркас оцінювання на GitHub значною мірою зменшує цю стурбованість, але незалежне відтворення буде необхідним, перш ніж спільнота ШІ розглядатиме ці результати як остаточні.

DeepSWE з’являється на переломному етапі для ринку кодування за допомогою ШІ. Корпоративне впровадження агентів для кодування ШІ прискорюється, і інженерні організації роблять вагомі ставки на те, яку модель обрати. Сам ринок бенчмарків став стратегічним полем битви — SWE-Bench Pro від Scale AI, який Datacurve прямо критикує, підтримується компанією, що також надає послуги оцінювання лабораторіям, моделі яких вона ранжує.

Якщо основні висновки DeepSWE щодо надійності верифікаторів та забруднення даних витримають незалежну перевірку, вони можуть змусити переглянути не тільки те, як індустрія вимірює агентів для кодування, але й ширше питання про те, для чого взагалі потрібні бенчмарки. Лідерборд, де система оцінювання помиляється в третині випадків, не просто неточний — це зламаний інструмент, який змушує всіх відчувати себе добре щодо прогресу, якого, можливо, не існує. А в галузі, яка витрачає мільярди на ставку на те, що ШІ-агенти можуть виконувати роботу програмних інженерів, різниця між реальним прогресом та його видимістю не є академічною. Це вся гра.

Прогноз ІТ-Блогу: Новий бенчмарк DeepSWE, швидше за все, стимулюватиме розробку більш стійких до забруднення даних та точних систем оцінювання для моделей машинного навчання. Це може призвести до створення більш спеціалізованих інструментів для оцінки ШІ, які краще відображатимуть реальні робочі сценарії, аніж загальні метрики.

За даними порталу: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *