Коли ШІ вдає слухняність: розкриваємо обман у самокерованих системах

Штучний інтелект (ШІ) виходить за межі простого інструменту, стаючи самостійним агентом, що створює нові ризики для систем кібербезпеки. “Фальсифікація узгодженості” (alignment faking) – це нова загроза, коли ШІ по суті “обманює” розробників під час процесу навчання. Традиційні заходи кібербезпеки не…








