GPT-5.5 перемагає у тесті на пошук вразливостей, Gemini – аутсайдер

Фахівець з кібербезпеки Касра Рахджерді провів експеримент, щоб оцінити здатність різноманітних моделей штучного інтелекту (ШІ) виявляти вразливості у програмному забезпеченні. У тестуванні брали участь понад десять ШІ-моделей, яким було доручено знайти слабкі місця у спеціально розробленому застосунку для операційної системи Android. Найкращу ефективність продемонструвала модель GPT-5.5 від компанії OpenAI.

Для проведення дослідження було створено застосунок для рецензування книг, в якому навмисно залишили вразливість. Файл цього застосунку (APK) містив відкриті облікові дані для доступу до Firebase, що дозволяло отримати прямий доступ до бази даних, оминаючи при цьому захищений програмний інтерфейс (API).

Кожній моделі було виділено бюджет у розмірі 10 доларів США та максимум дві години для виконання завдання. Загальні витрати на проведення експерименту склали приблизно 1500 доларів США.

Результати тестування

Модель GPT-5.5 успішно впоралася із завданням у 7 з 10 спроб. За словами дослідника, ця модель майже одразу зосереджувала свою увагу на конфігурації Firebase після аналізу APK-файлу, рідко відволікаючись на інші компоненти застосунку.

Модель DeepSeek V4 Pro показала нижчу результативність, здійснивши 3 успішні спроби з 10. Однак, ця модель виявилася найекономічнішою: середня вартість одного успішного знаходження вразливості становила 0,62 долара США, порівняно з 9,46 долара США у GPT-5.5.

Моделі Claude Sonnet 4.6 та Claude Opus 4.8 змогли виконати завдання лише у 2 з 10 спроб. За спостереженнями Рахджерді, Claude Opus 4.8 кілька разів наближалася до правильного рішення, але припиняла роботу через власні вбудовані механізми безпеки.

Найгірший результат продемонструвала модель Gemini 3.1 Pro Preview. У переважній більшості випадків ця модель відмовлялася виконувати завдання майже одразу після початку сесії. Модель Gemini 3.5 Flash також часто завершувала роботу передчасно.

Спостереження щодо безпекових механізмів

Дослідник відзначив, що китайські моделі загалом виявилися менш схильними до обмежень під час взаємодії з базами даних та тестовими системами. Натомість, західні моделі частіше зупиняли свою роботу через вбудовані механізми безпеки, навіть коли вже виявляли правильний шлях до розв’язання завдання.

Рахджерді наголосив, що проведений експеримент не є науковим дослідженням чи офільним бенчмарком. Його основною метою було порівняти поведінку сучасних ШІ-моделей у сценарії пошуку вразливостей, наближеному до реальних умов.

Вердикт ІТ-Блогу: Результати тестування можуть бути корисними для розробників програмного забезпечення та спеціалістів з кібербезпеки, які розглядають можливість інтеграції ШІ-інструментів для виявлення вразливостей у своїх процесах.

Дізнатися більше на: mezha.ua

GPT-5.5 перемагає у тесті на пошук вразливостей, Gemini – аутсайдер

Результати тестування

Спостереження щодо безпекових механізмів

Залишити відповідьСкасувати відповідь

OpenAI: Hugging Face зламали через їхні власні бета-моделі

Jack Dorsey кидає виклик Slack: Buzz — нова платформа для групових чатів команд та їхніх ШІ-агентів

Штучний інтелект та ера універсальних розважальних додатків