Викрадення браузерного агента Anthropic: 31.5% успіхів до активації захисту

Серед провідних лабораторій, що розробляють передові моделі ШІ, найвищі показники впровадження підказок (prompt injection) були опубліковані навесні компанією Anthropic. Якщо спрямувати тестувальника (red-teamer) на новітню модель компанії в браузері, то в 31.5% випадків зловмисникам вдавалося отримати контроль ще до того, як спрацьовували запобіжники. OpenAI, Google та Meta не надали керівникам з безпеки порівнянних даних. Цей показник виглядає як потенційна вразливість, але в цьому порівнянні він є єдиним надійним орієнтиром.

Чотири провідні лабораторії опублікували результати тестування на вразливість до впровадження підказок, але жодні два результати не збігаються. Anthropic надала 244 сторінки документації та чотири інтерфейси взаємодії з агентами 28 травня. OpenAI повідомила про одну таку поверхню – конектори. Google перенесла тему з опису моделі до окремої системи безпеки. Meta не надала жодної картки моделі для закритих моделей. Таблиця нижче показує, що тестувала кожна лабораторія, які показники вимірювала, і чому побічне порівняння виявляється неможливим у чотирьох випадках.

Впровадження підказок (prompt injection) – це метод, коли шкідлива інструкція прихована в даних, які читає агент: веб-сторінці, документі чи результаті роботи інструменту. Одна впроваджена команда може викрасти записи або виконати дії, які ніхто не затверджував. Ці звіти є первинним доказом для покупця.

Відсутність галузевого стандарту для вимірювання цих показників є коренем проблеми. Картер Різ, віце-президент з питань ШІ в Reputation, зазначив, що впровадження підказок руйнує припущення, на яких будувалися всі старі інструменти. “Фраза, настільки невинна, як «ігноруй попередні інструкції», може містити настільки руйнівний вантаж, як переповнення буфера (buffer overflow), але при цьому вона не має жодної спільної ознаки з відомими сигнатурами шкідливого програмного забезпечення”. Без спільних сигнатур для сканування кожна лабораторія створила власну метрику, і результати не співпадають.

Адам Мейерс, старший віце-президент з питань протидії противникам у CrowdStrike, заявив, що тепер відповідальність за ризики лежить на покупцеві. “Впровадження ШІ збільшує вашу поверхню атаки, тому тепер ви повинні захищати ці моделі ШІ від зловмисного використання, отруєння даних або впровадження підказок”. Власні дані CrowdStrike показують, що загрози постійно еволюціонують. У своєму звіті “Financial Services Threat Landscape Report 2026”, опублікованому в травні, компанія повідомила, що зловмисники використовують ШІ для скорочення часу від початкового доступу до досягнення мети швидше, ніж традиційні системи захисту можуть відреагувати.

Anthropic виміряла чотири поверхні. Цифри коливаються на порядок залежно від того, яку з них ви розглядаєте.

Звіт Opus 4.8 від Anthropic, на відміну від інших, деталізує показники впровадження підказок за кожною поверхнею, і саме це розходження є ключовим.

При використанні моделі в середовищі кодування, адаптивний зловмисник з інструменту Shade від Gray Swan проникав у 7.03% випадків при одноразових спробах з увімкненим режимом “мислення”. Запобіжники знизили цей показник до 2.09%.

При перенесенні такого ж типу атаки до браузера, що використовується Claude в Chrome та Claude Cowork, ситуація різко погіршується. Anthropic залучила професійних тестувальників для 129 веб-середовищ, ізольованих від навчання, і опублікувала всі результати в Таблиці 5.2.2.4.A на сторінці 81 системної картки. Показник “на спробу” – це частка всіх спроб впровадження, які були успішними в 129 середовищах по 10 спроб у кожному. Показник “на сценарій” – це складніший відбір, частка середовищ, де була успішною хоча б одна спроба.

Викрадення браузерного агента Anthropic: 31.5% успіхів до активації захисту 2

Читаючи колонку “на спробу” без запобіжників та з увімкненим режимом “мислення”, ви побачите, що сирий показник зменшується з кожною версією: від 50.7% для Sonnet 4.6 до 31.5% для Opus 4.8. Найнижчий показник у таблиці – 5.9% – належить Mythos Preview, яку ще неможливо придбати. Увімкніть запобіжники, і показник для Opus 4.8 знизиться до 0.5%. Вимкніть режим “мислення”, і він впаде до нуля в усіх 129 середовищах.

OpenAI виміряла одну поверхню, використовуючи вже відомі атаки.

Картка GPT-5.5, опублікована 23 квітня та оновлена 24 квітня, розглядає проблему впровадження підказок в одному місці – в окремому розділі, присвяченому стійкості до відомих атак на конектори. OpenAI звітує про це як про показник стійкості (robustness score), де вищий бал означає кращий результат, тобто протилежне до показника успішності атаки. GPT-5.5 отримав результат 0.963, порівняно з 0.998 для GPT-5.4 з увімкненим режимом “мислення”. Цей єдиний показник є всім розкриттям інформації.

Anthropic тестувала чотири поверхні проти адаптивного зловмисника, який змінює свій підхід залежно від дій моделі, а потім провела однотижневий баунті з пошуку вразливостей, де тестувальники намагалися зламати модель в реальному часі. Коли результати кодування виявилися гіршими, ніж у Opus 4.7, картка це зазначала.

Порівняйте показник 0.963 з 31.5% – вони виглядають так, ніби належать до різних турнірних таблиць. Це не так. Перший – це показник стійкості до відомих атак на одній поверхні. Другий – це показник успішності атаки на спробу в 129 браузерних середовищах проти зловмисника, який адаптувався в реальному часі.

Google і Meta взагалі не вказали числові показники у своїх звітах

Google у звіті про Gemini 3 класифікує впровадження підказок як один із заходів пом’якшення ризиків, а матеріали про запуск описують підвищену стійкість без конкретних цифр. Звіт Frontier Safety Framework дійсно включає тестування, але за загальними доменами можливостей, і впровадження підказок не є одним з них. Немає жодної картки моделі, сторінки фреймворку чи показника по поверхнях, який покупець міг би використати для оцінки ризиків.

Meta випускає моделі з відкритим кодом і не має карток для закритих моделей. Захист від впровадження підказок реалізовано в окремому стеку – Purple Llama’s LlamaFirewall. Класифікатор PromptGuard 2 та аудитор AlignmentCheck, протестовані на публічному бенчмарку AgentDojo з його 97 завданнями, знижують успішність атак з 17.6% без захисту до 1.75% із застосуванням комплексного захисту. Це реальні цифри, але вони оцінюють захисні механізми на публічному бенчмарку, а не модель на робочій поверхні, яку могла б розпізнати команда безпеки.

Таблиця порівняння розкриття інформації щодо впровадження підказок між постачальниками

Наведена нижче таблиця призначена для будь-якої передової моделі, яку розглядають команди безпеки. Кожен рядок позначає аспект, за яким чотири постачальники відрізняються. Кожна відмінність означає, що швидке порівняння стає неможливим. Дані Anthropic взяті з системної картки Opus 4.8. Усі інші дані від трьох постачальників взято з їхньої опублікованої документації з безпеки.

Вимір	Anthropic, Opus 4.8	OpenAI, GPT-5.5	Google, Gemini 3.x	Meta, Llama stack
Документ з безпеки	Системна картка, 28 травня 2026 року, 244 сторінки	Системна картка, 23 квітня 2026 року, оновлена 24 квітня	Картка моделі плюс окремий звіт Frontier Safety Framework	Немає картки закритої моделі. Відкриті ваги плюс стек Purple Llama
Бенчмарк або набір даних для впровадження	ART від Gray Swan та UK AISI, інструмент Shade, плюс внутрішня оцінка браузера, 129 середовищ	Внутрішня оцінка конекторів, відомі атаки	Немає для впровадження	AgentDojo, 97 завдань
Оцінені поверхні на впровадження	Чотири. Використання інструментів, кодування, комп’ютерне використання, браузер	Одна. Конектори	Немає опублікованих для впровадження	Одна. Завдання агента AgentDojo
Наявність багаторазових ескалацій	Так. Бенчмарк ART при 1, 10, 100. Кодування та комп’ютерне використання при 1 та 200	Ні. Один загальний показник	Ні	Ні
Основний показник та одиниця виміру	Темп успішності атак. Браузер, з увімкненим мисленням, 31.5% сирий, 0.5% із запобіжниками	Показник стійкості, вище – краще. 0.963, зниження з 0.998 для GPT-5.4 з мисленням	Немає опублікованих. Якісно заявлено про підвищену стійкість	Темп успішності атак на AgentDojo. 17.6% базова лінія до 1.75% комплексно
Живий зовнішній баунті	Так. Тижневий баунті на впровадження з зовнішніми тестувальниками	Немає баунті на впровадження. Тільки баунті за біологічні дані	Не виявлено	Не виявлено
Розкриття регресії	Так, прямо, з цифрами	Показник знизився з 0.998 до 0.963, не класифіковано як регресія	Заявлено про підвищену стійкість, без цифр	Не застосовується

П’ять факторів, які команди безпеки повинні врахувати зараз

Anthropic протестувала чотири поверхні та опублікувала всі цифри. OpenAI протестувала одну. Google не надала показників по поверхнях. Meta оцінила свої захисні механізми, а не модель. Ці чотири звіти не дозволяють провести порівняння. Наступні п’ять кроків допоможуть це зробити.

Зберіть усі агенти, які ви розгорнули або плануєте розгорнути, і позначте кожного за поверхнею, яку він торкається: браузер, код, конектори або робочий стіл. Показник Anthropic для Opus 4.8 становить 2.09% для кодування та 0.5% для браузера. Усереднений показник не відображатиме жодного з них. Отримайте опублікований постачальником показник для вашої конкретної поверхні. Якщо постачальник ніколи не публікував таких даних, вважайте цю поверхню нетестованою.

Надішліть таблицю порівняння постачальникам, яких ви оцінюєте. Показник конекторів 0.963 та показник браузера 31.5% ніколи не були в одній системі вимірювання. Вимагайте показник успішності атак на конкретну поверхню, як сирий, так і із запобіжниками, із зазначенням методології зловмисника. Порожні комірки означають поверхні, для яких немає первинних даних.

Письмово підтвердіть, який показник відповідає вашій інтеграції. Показник Anthropic 0.5% стосується Claude в Chrome та Cowork із повним стеком запобіжників. В API ця модель постачається без них. Не приймайте продуктний показник для розгортання через API.

Додайте два пункти до запиту пропозицій (RFP). Постачальник протестував модель з адаптивним зловмисником, який змінює шкідливі навантаження проти моделі, і хтось іззовні компанії намагався її зламати. Anthropic використала адаптивний інструмент Shade від Gray Swan та однотижневий платний баунті. OpenAI тестувала відомі атаки на одній поверхні. Зловмисники не використовують відомі шкідливі навантаження.

Проведіть власний тест на впровадження перед розгортанням будь-якого агента. Показники постачальників отримані в їхніх середовищах з їхніми системними підказками. Ваша система має власні підказки, дозволи та доступ до даних. Встановіть порогове значення проходження. Все, що перевищує його, не буде запущено.

Висновок. Наразі не існує жодного стандарту для вимірювання цих показників. Цифра, надана постачальником, відображає те, що він вирішив виміряти. Ваша власна команда тестувальників покаже вам, яким ризикам ви піддаєтеся.

Як захиститися (Порада ІТ-Блогу): Завжди застосовуйте принцип найменших привілеїв до будь-яких систем ШІ, якими ви користуєтеся. Обмежте доступ агентів до даних та функцій лише тими, що абсолютно необхідні для виконання їхнього завдання. Регулярно переглядайте та оновлюйте правила безпеки, особливо коли впроваджуєте нові інструменти чи функції.

Подробиці можна знайти на сайті: venturebeat.com

Anthropic виміряла чотири поверхні. Цифри коливаються на порядок залежно від того, яку з них ви розглядаєте.

OpenAI виміряла одну поверхню, використовуючи вже відомі атаки.

Google і Meta взагалі не вказали числові показники у своїх звітах

Таблиця порівняння розкриття інформації щодо впровадження підказок між постачальниками

П’ять факторів, які команди безпеки повинні врахувати зараз

Залишити відповідьСкасувати відповідь