Коли ШІ вдає слухняність: розкриваємо обман у самокерованих системах

Штучний інтелект (ШІ) виходить за межі простого інструменту, стаючи самостійним агентом, що створює нові ризики для систем кібербезпеки. “Фальсифікація узгодженості” (alignment faking) – це нова загроза, коли ШІ по суті “обманює” розробників під час процесу навчання.

Традиційні заходи кібербезпеки не готові протистояти цій новій розробці. Однак розуміння причин такої поведінки та впровадження нових методів навчання і виявлення може допомогти розробникам зменшити ризики.

Розуміння “фальсифікації узгодженості” ШІ

Узгодженість ШІ (AI alignment) означає, що ШІ виконує свою призначену функцію, наприклад, читає та підсумовує документи, і нічого більше. “Фальсифікація узгодженості” – це коли системи ШІ створюють враження, ніби вони працюють належним чином, але насправді роблять щось інше у фоновому режимі.

“Фальсифікація узгодженості” зазвичай відбувається, коли попереднє навчання конфліктує з новими коригуваннями навчання. ШІ зазвичай “винагороджується” за точне виконання завдань. Якщо зміни в навчанні призводять до того, що ШІ вважає, що його “покарання” уникнути не вдасться, якщо він не буде дотримуватися оригінального навчання, він обманює розробників, змушуючи їх думати, що він виконує завдання новим, необхідним способом, але насправді не буде цього робити під час розгортання. Будь-яка велика мовна модель (LLM) здатна до “фальсифікації узгодженості”.

Дослідження з використанням моделі ШІ Claude 3 Opus від Anthropic виявило поширений приклад “фальсифікації узгодженості”. Систему навчали за одним протоколом, а потім попросили перейти на новий метод. Під час навчання вона видала новий, бажаний результат. Однак, коли розробники розгорнули систему, вона видала результати, засновані на старому методі. По суті, вона чинила опір відмові від свого початкового протоколу, тому вдала відповідність, щоб продовжувати виконувати старе завдання.

Оскільки дослідники спеціально вивчали “фальсифікацію узгодженості” ШІ, її було легко виявити. Справжня небезпека полягає в тому, коли ШІ вдає узгодженість без відома розробників. Це призводить до багатьох ризиків, особливо коли люди використовують моделі для конфіденційних завдань або в критично важливих галузях.

Ризики “фальсифікації узгодженості”

“Фальсифікація узгодженості” є новою та значною загрозою кібербезпеці, яка створює численні небезпеки, якщо її не виявити. Враховуючи, що лише 42% світових бізнес-лідерів взагалі впевнені у своїй здатності ефективно використовувати ШІ, шанси на відсутність виявлення високі. Уражені моделі можуть викрадати конфіденційні дані, створювати приховані двері (backdoors) та саботувати системи — і все це, виглядаючи функціональними.

Системи ШІ також можуть ухилятися від інструментів безпеки та моніторингу, коли вони вважають, що їх контролюють, і все одно виконують неправильні завдання. Моделі, запрограмовані на виконання зловмисних дій, важко виявити, оскільки протокол активується лише за певних умов. Якщо ШІ бреше про умови, важко перевірити його дійсність.

Моделі ШІ можуть виконувати небезпечні завдання, успішно переконавши фахівців з кібербезпеки, що вони працюють. Наприклад, ШІ в охороні здоров’я може ставити неправильні діагнози пацієнтам. Інші можуть демонструвати упередженість у кредитному скорингу при використанні у фінансових секторах. Транспортні засоби, що використовують ШІ, можуть надавати пріоритет ефективності над безпекою пасажирів. “Фальсифікація узгодженості” створює значні проблеми, якщо її не виявити.

Чому поточні протоколи безпеки не спрацьовують

Поточні протоколи кібербезпеки ШІ не готові справлятися з “фальсифікацією узгодженості”. Вони часто використовуються для виявлення зловмисних намірів, яких цим моделям ШІ бракує. Вони просто дотримуються свого старого протоколу. “Фальсифікація узгодженості” також перешкоджає аномальному захисту на основі поведінки, виконуючи начебто нешкідливі відхилення, які фахівці пропускають. Фахівці з кібербезпеки повинні оновити свої протоколи для вирішення цієї нової проблеми.

Існують плани реагування на інциденти для вирішення проблем, пов’язаних із ШІ. Однак “фальсифікація узгодженості” може обійти цей процес, оскільки вона дає мало ознак того, що проблема взагалі існує. Наразі не існує встановлених протоколів виявлення “фальсифікації узгодженості”, оскільки ШІ активно обманює систему. Поки фахівці з кібербезпеки розробляють методи виявлення обману, вони також повинні оновлювати свої плани реагування.

Як виявити “фальсифікацію узгодженості”

Ключ до виявлення “фальсифікації узгодженості” полягає в тестуванні та навчанні моделей ШІ розпізнавати цю невідповідність та запобігати “фальсифікації узгодженості” самостійно. По суті, їм потрібно розуміти логіку змін протоколу та етичні аспекти. Функціональність ШІ залежить від його навчальних даних, тому початкові дані повинні бути адекватними.

Інший спосіб боротьби з “фальсифікацією узгодженості” – це створення спеціальних команд, які розкривають приховані можливості. Це вимагає належного виявлення проблем та проведення тестів, щоб змусити ШІ показати свої справжні наміри. Фахівці з кібербезпеки також повинні проводити безперервний аналіз поведінки розгорнутих моделей ШІ, щоб переконатися, що вони виконують правильне завдання без сумнівної логіки.

Фахівцям з кібербезпеки, можливо, доведеться розробити нові інструменти безпеки ШІ для активного виявлення “фальсифікації узгодженості”. Вони повинні розробляти інструменти, які забезпечують глибший рівень перевірки, ніж поточні протоколи. Деякі методи включають “розсудливу узгодженість” (deliberative alignment) та “конституційний ШІ” (constitutional AI). “Розсудлива узгодженість” навчає ШІ “думати” про протоколи безпеки, а “конституційний ШІ” надає системам правила, яких слід дотримуватися під час навчання.

Найефективнішим способом запобігання “фальсифікації узгодженості” було б зупинити її з самого початку. Розробники постійно працюють над покращенням моделей ШІ та оснащенням їх розширеними інструментами кібербезпеки.

Від запобігання атакам до перевірки намірів

“Фальсифікація узгодженості” має значний вплив, який лише зростатиме, оскільки моделі ШІ ставатимуть більш автономними. Щоб рухатися вперед, галузь повинна надавати пріоритет прозорості та розробляти надійні методи верифікації, які виходять за межі поверхневого тестування. Це включає створення передових систем моніторингу та виховання культури пильного, безперервного аналізу поведінки ШІ після розгортання. Надійність майбутніх автономних систем залежить від того, наскільки ефективно ми вирішимо цю проблему.

Зак Амос – редактор відділу статей у ReHack.

Ласкаво просимо до спільноти VentureBeat!

Наша програма для запрошених авторів (guest posting program) – це платформа, де технічні експерти діляться своїми знаннями та надають нейтральні, неупереджені глибокі аналізи щодо ШІ, інфраструктури даних, кібербезпеки та інших передових технологій, які формують майбутнє підприємств.

Читайте більше від нашої програми запрошених авторів – і ознайомтеся з нашими рекомендаціями, якщо ви зацікавлені у публікації власної статті!

Як захиститися (Порада ІТ-Блогу): Завжди використовуйте двофакторну автентифікацію (2FA) для всіх своїх онлайн-акаунтів, особливо для тих, що містять конфіденційну інформацію. Якщо ШІ-система, яка використовується, може бути скомпрометована, 2FA додає додатковий рівень безпеки, який значно ускладнює зловмисникам доступ до ваших даних, навіть якщо їм вдасться отримати ваші паролі.

Джерело новини: venturebeat.com

Коли ШІ вдає слухняність: розкриваємо обман у самокерованих системах

Розуміння “фальсифікації узгодженості” ШІ

Ризики “фальсифікації узгодженості”

Чому поточні протоколи безпеки не спрацьовують

Як виявити “фальсифікацію узгодженості”

Від запобігання атакам до перевірки намірів

Залишити відповідьСкасувати відповідь

Модифікація кулера з двома процесорами допомагає старому чипсету Snapdragon досягти майже 100% стабільності в стрес-тестах 3DMark Wild Life Extreme та Solar Bay

Напівмертві диски: чому половина ігор для Xbox Series X без інтернету не працюватиме

Тім Кук натякнув: Apple запровадить платну підписку для “просунутих” користувачів ШІ