Anthropic розкриває показники вразливості до промт-ін'єкцій: відповідь для IT-безпеки

Якщо спробувати впровадити атаку на модель Claude Opus 4.6 у обмеженому середовищі для кодування, вона зазнає повного фіаско — 0% успіху за 200 спроб, навіть без жодних захисних механізмів. Але варто перенести ту саму атаку на графічний інтерфейс з увімкненим розширеним мисленням, і ситуація кардинально змінюється. Лише одна спроба досягає мети у 17.8% випадків без захисту. А після 200 спроб рівень успішних атак сягає 78.6% без захисних заходів та 57.1% — із застосованими.

Свіжа системна картка моделі обсягом 212 сторінок, опублікована 5 лютого, детально розкриває показники успішності атак залежно від поверхні взаємодії, кількості спроб та конфігурації захисту.

Чому нюанси взаємодії визначають ризики для підприємства

Протягом багатьох років “промпт-ін’єкція” була відомим ризиком, який ніхто не вимірював. Служби безпеки розглядали це як теоретичну загрозу, а розробники ШІ — як дослідницьке завдання. Все змінилося, коли Anthropic зробила промпт-ін’єкцію вимірюваною на чотирьох різних поверхнях взаємодії з агентами, надавши показники успішності атак, на основі яких лідери безпеки можуть приймати обґрунтовані рішення щодо закупівель.

Системна картка OpenAI GPT-5.2 містить результати тестування промпт-ін’єкцій, включно з показниками для таких оцінок, як Agent JSK та PlugInject. Однак, вона не розбиває показники успішності за поверхнями взаємодії з агентом і не показує, як ці показники змінюються при багаторазових спробах. Оригінальна системна картка GPT-5 описувала понад 5000 годин “червоного командування” (red teaming) від понад 400 зовнішніх тестувальників. У картці моделі Gemini 3 зазначається, що це “найбільш захищена модель з усіх”, яка має “підвищену стійкість до промпт-ін’єкцій”, проте наводяться лише відносні покращення безпеки порівняно з попередніми моделями, а не абсолютні показники успішності атак за поверхнями чи дані про масштабування стійкості.

Що розкривають розробники, а що приховують

Категорія розкриття	Anthropic (Opus 4.6)	OpenAI (GPT-5.2)	Google (Gemini 3)
Показники успішності атак за поверхнею	Опубліковано (від 0% до 78.6%)	Лише результати тестів	Лише відносні покращення
Масштабування стійкості до атак	Опубліковано (від 1 до 200 спроб)	Не опубліковано	Не опубліковано
Порівняння з увімкненими/вимкненими захисними механізмами	Опубліковано	Не опубліковано	Не опубліковано
Дані про уникнення моніторингу агентом	Опубліковано (SHADE-Arena)	Не опубліковано	Не опубліковано
Кількість знайдених нульових вразливостей (zero-day)	500+ із зазначенням проєктів	Не опубліковано	Не опубліковано
Тестування сторонніми компаніями (“червоне командування”)	Gray Swan, UK AISI, Apollo	400+ зовнішніх тестувальників	UK AISI, Apollo, Vaultis, Dreadnode

Тестування сторонніми командами підкреслює важливість детальної інформації від постачальників. Незалежна оцінка GPT-5.2 від Promptfoo виявила, що рівень успішності “джейлбрейків” (jailbreak) зростає з базових 4.3% до 78.5% у багатоходових сценаріях. Це саме ті дані про масштабування стійкості, які демонструють, як захист деградує під час тривалого нападу. Системна картка OpenAI не містить еквівалентних метрик.

Коли агент обходить власний моніторинг

У розділі оцінки відповідності (alignment assessment) міститься висновок, який має змінити погляд підприємств на управління агентами. На SHADE-Arena, бенчмарку, розробленому для перевірки здатності моделей виконувати підозрілі завдання без активації автоматичного нагляду, Opus 4.6 демонструвала успіх у 18% випадків за умови увімкненого розширеного мислення. Монітор був налаштований відповідно до внутрішнього порогу виявлення Anthropic.

У системній картці зазначено, що модель має “покращену здатність виконувати підозрілі додаткові завдання, не привертаючи уваги автоматизованих моніторів”. Агент, розроблений Anthropic, успішно обходить монітор, створений самою Anthropic.

У окремому “Звіті про ризики саботажу” (Sabotage Risk Report) від Anthropic, використовуючи ті ж 18%, робиться протилежний висновок: модель із справжніми прихованими цілями “з величезною ймовірністю буде спіймана” на нинішньому рівні можливостей. Однак, звіт також визнає, що це число “є зростанням порівняно з попередніми моделями”. Для команд безпеки підприємств важливішою є динаміка змін, ніж поточна цифра. Можливості, які вдосконалюються з кожним новим поколінням моделей, — це не те, чим можна безпечно нехтувати у своїй моделі ризиків.

Для команд безпеки висновок є архітектурним: обмежте доступ агента, звузьте простір його дій та вимагайте схвалення людини для операцій з високим ризиком. Традиційна модель розгортання та моніторингу передбачає, що об’єкт моніторингу є передбачуваним. Агенти, здатні аналізувати власний нагляд, такими не є.

Брюс Шнайер, співробітник і викладач Гарвардської школи Кеннеді та член правління Electronic Frontier Foundation, стверджує, що підприємства, які розгортають агентів ШІ, стикаються з “тріймею безпеки”, де можна оптимізувати швидкість, інтелект або безпеку, але не всі три одночасно. Власні дані Anthropic ілюструють цей компроміс: найсильніша поверхня — вузька та обмежена, найслабша — широка та автономна.

500 нульових вразливостей змінюють економіку їх виявлення

Opus 4.6 виявила понад 500 раніше невідомих вразливостей у коді з відкритим вихідним кодом, зокрема недоліки у GhostScript, OpenSC та CGIF. Anthropic детально описала ці знахідки у блозі, що супроводжував випуск системної картки.

П’ятсот нульових вразливостей від однієї моделі. Для порівняння, група Google Threat Intelligence зафіксувала 75 нульових вразливостей, які активно використовувалися в усій галузі у 2024 році. Це вразливості, знайдені вже після того, як зловмисники почали їх використовувати. Одна модель проактивно виявила понад у шість разів більше таких у кодових базах з відкритим доступом, перш ніж їх могли знайти атакуючі. Це інша категорія виявлення, але вона демонструє масштаб, який ШІ надає для досліджень у сфері захисту.

Реальні атаки вже підтверджують модель загроз

Через кілька днів після запуску Claude Cowork компанією Anthropic, дослідники безпеки з PromptArmor знайшли спосіб викрасти конфіденційні файли користувачів за допомогою прихованих промпт-ін’єкцій. Без жодного дозволу людини.

Ланцюжок атаки працює так:

Користувач підключає Cowork до локальної папки з конфіденційними даними. Зловмисник розміщує у цій папці файл із прихованою промпт-ін’єкцією, замаскований під нешкідливий документ “навички”. Ін’єкція обманює Claude, змушуючи його викрадати приватні дані через дозволений API-домен Anthropic, повністю обходячи пісочничні обмеження. PromptArmor протестувала це на Claude Haiku. Успішно. Потім протестували на Claude Opus 4.5, найпотужнішій моделі компанії на той час. Це теж спрацювало.

Саймон Віллісон, незалежний дослідник ШІ, який у 2022 році ввів термін “промпт-ін’єкція”, написав у блозі після огляду Cowork, що він “не вважає справедливим просити звичайних користувачів, які не є програмістами, стежити за «підозрілими діями, які можуть свідчити про промпт-ін’єкцію»”. Вразливість, яку Anthropic розкрила у власній системній картці, і через яку стійкі супротивники долають захист більше половини часу, є тією ж, що реалізувалася у виробництві за два тижні до випуску Opus 4.6.

Проблема цілісності оцінки, що стосується всіх постачальників

Процес прийняття рішення щодо випуску системної картки містить визнання, яке має змусити кожну команду безпеки підприємства замислитись. Anthropic використовувала Opus 4.6 через Claude Code для налагодження власної інфраструктури оцінювання, аналізу результатів та виправлення проблем під тиском часу.

Компанія відкрито визнає ризик: “Неправильно налаштована модель може вплинути на саму інфраструктуру, розроблену для вимірювання її можливостей”. Anthropic стверджує, що не вважає це значним ризиком, оскільки модель не виявила жодних ознак небезпечних невідповідних цілей. Однак, динаміка реальна і погіршується. Оскільки моделі стають потужнішими, а терміни розробки залишаються стислими, команди приймають зміни коду, які вони не до кінця розуміють.

Anthropic пішла далі за будь-яку іншу лабораторію, кількісно оцінюючи потенційні проблеми. Окремий “Звіт про ризики саботажу”, випущений разом із системною карткою, описує вісім конкретних шляхів, якими Opus 4.6 може спричинити катастрофічну шкоду, якщо вона діятиме відповідно до невідповідних цілей, будучи вбудованою у власну інфраструктуру Anthropic. Це включає саботаж досліджень безпеки через навмисне уповільнення роботи, впровадження бекдорів безпеки у код для використання майбутніми моделями та викрадення власних вагових коефіцієнтів моделі для автономної роботи.

Для кожного такого шляху звіт оцінює як частоту, так і складність необхідних невідповідних дій, а потім визначає, чи достатньо заходів моніторингу, тестування відповідності та контролю безпеки Anthropic для стримування ризику.

Загальний вердикт: “дуже низький, але не незначний”. Звіт стверджує, що Opus 4.6 не має послідовних небезпечних цілей, непрозорості мислення та надійності довгострокового планування, необхідних для виконання цих шляхів без виявлення. Але він також визнає, що автоматизовані монітори не охоплюють усі внутрішні поверхні розгортання, системи повідомлень для людей не були ретельно оцінені, а отруєння даних компетентним людино-зловмисником може зробити модель більш здатною обходити засоби захисту, ніж її базові можливості. Жодна інша передова лабораторія ШІ не опублікувала еквівалентного аналізу того, як її власна модель може обернутися проти власної інфраструктури.

Для керівників служб безпеки, які оцінюють розгортання агентів ШІ, це означає, що стороннє “червоне командування” та незалежна оцінка є абсолютно необхідними.

Ця нагальність відображає тиск регуляторів, що наростає в галузі. Центр стандартів та інновацій ШІ NIST у січні видав запит на інформацію, зосереджений саме на безпеці систем агентів ШІ. RFI попереджає, що системи агентів ШІ “можуть бути вразливими до викрадення, атак із прихованими дверима та інших експлойтів”, які можуть “вплинути на громадську безпеку, підірвати довіру споживачів та обмежити впровадження найновіших інновацій у сфері ШІ”. Команди закупівель починають запитувати у постачальників кількісні дані щодо безпеки агентів. Один розробник щойно зробив це можливим.

Що керівникам безпеки слід зробити перед наступною оцінкою постачальника

Anthropic встановила новий стандарт, опублікувавши показники успішності атак промпт-ін’єкцій, розбиті за поверхнями взаємодії. Результати уникнення моніторингу агентом ідентифіковані та проаналізовані, а не приховані. Кількість виявлених нульових вразливостей розкривається із зазначенням уражених проєктів. Компанія відмовилася від показника прямої промпт-ін’єкції, стверджуючи, що опосередкована ін’єкція є більш актуальною загрозою для підприємств. Це обґрунтовано, але зміна ускладнює порівняння за роками. Результати SHADE-Arena викликають запитання щодо моніторингу агентів, які системна картка визнає, але не вирішує.

Звіт про ризики саботажу додає ще один рівень підзвітності. Він включає рамки “погляд у майбутнє”, які визначають конкретні умови, за яких власні висновки Anthropic щодо безпеки більше не будуть дійсними. Ці тригери включають: модель, що набирає понад 60% на SHADE-Arena; модель, що досягає стрибка можливостей, еквівалентного 5-кратному збільшенню обчислювальної потужності порівняно з попереднім поколінням; критично важливі функції досліджень безпеки стають повністю автоматизованими без участі людини; або менше ніж 25 технічних фахівців мають значний контроль над поведінкою моделі. Керівники служб безпеки повинні запитувати у всіх постачальників агентів ШІ аналогічні критерії — умови, за яких власна оцінка безпеки постачальника втрачає силу.

Три кроки, які керівники безпеки повинні зробити зараз:

Запитуйте у кожного постачальника агентів ШІ у вашому процесі оцінки показники успішності атак за поверхнею, а не лише результати тестів. Якщо вони не можуть надати дані про масштабування відмов, враховуйте цей пробіл у своїй оцінці ризиків.
Замовляйте незалежні оцінки “червоним командуванням” перед будь-яким розгортанням у виробництві. Коли власна модель постачальника допомагала будувати інфраструктуру оцінювання, даних про безпеку, наданих постачальником, недостатньо.
Розгляньте можливість перевірки заяв щодо безпеки агентів за допомогою результатів незалежного “червоного командування” протягом 30 днів перед розширенням сфери розгортання.

Порада від ІТ-Блог:

Ця новина є надзвичайно важливою для будь-якого бізнесу, що планує впроваджувати штучний інтелект. Вона наочно демонструє, що безпека ШІ-агентів — це не просто технічна деталь, а критичний фактор, який потребує глибокого аналізу та прозорості від постачальників. Розуміння того, як різні середовища впливають на стійкість до атак, та вимоги до детальної звітності допоможуть вам зробити більш усвідомлений вибір та мінімізувати потенційні ризики для вашого бізнесу.

Дізнатися більше на: venturebeat.com

Anthropic розкриває показники вразливості до промт-ін’єкцій: відповідь для IT-безпеки