Anthropic не покаже Claude Mythos: мавпи з ядерною зброєю

Компанія Anthropic представила свою найсучаснішу модель штучного інтелекту — Claude Mythos Preview. Ця нейромережа демонструє вражаючі здібності у виявленні вразливостей та помилок у програмному забезпеченні.

Причини обмеженого доступу

Зважаючи на надзвичайно широкі можливості Claude Mythos, яка вже успішно ідентифікувала тисячі вразливостей у всіх основних операційних системах та браузерах, Anthropic прийняла рішення не надавати відкритий доступ до цієї моделі. Натомість, розробники організували ексклюзивний доступ для ключових гравців технологічної індустрії. Серед них: Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, Broadcom, JPMorgan Chase, Linux Foundation та Palo Alto Networks. Крім того, доступ отримали близько 40 організацій, що працюють у сфері критичної інфраструктури.

Anthropic пропонує використовувати Claude Mythos Preview як інструмент для проактивного виявлення та усунення вразливостей ще до того, як конкуренти випустять власні моделі зі схожими функціями, але без подібних механізмів безпеки. В рамках ініціативи Glasswing компанія також налагодила співпрацю з урядом США. Метою є обмін інформацією щодо потенціалу моделі, особливо в контексті її можливого застосування у наступальних та оборонних кіберопераціях.

Виявлення складних вразливостей

Основне занепокоєння Anthropic викликають як загальні, так і специфічні, “тонкі” вразливості, які здатна знаходити Claude Mythos. Згідно з повідомленнями розробників, ця ШІ-модель самостійно створила експлойт для веббраузера. Цей експлойт поєднував чотири вразливості, що дозволило йому функціонувати як складний JIT-компілятор (Just-In-Time compilation). Він швидко вийшов за межі браузерного рендер-двигуна та поширився на операційну систему. Такий комплексний набір вразливостей раніше був доступний лише найдосвідченішим хакерам.

Anthropic не покаже Claude Mythos: мавпи з ядерною зброєю 2

Порівняння з ядерною зброєю

Надання відкритого доступу до подібної ШІ-моделі можна було б порівняти з роздачею ядерної зброї програмістам-початківцям. Дослідники зазначають, що хоча попередні моделі Claude успішно виявляли вразливості, вони часто зазнавали невдачі при спробі створити на їх основі активні експлойти. Натомість Mythos демонструє здатність перетворювати 72,4% виявлених вразливостей на дієві експлойти, використовуючи JavaScript-оболонку Firefox. Більше того, у 11,6% випадків атаки ШІ вдається отримати контроль над регістрами системи. Представники команди Frontier Red Team з Anthropic детально описали потенційну загрозу, яку несе публічний реліз Mythos для індустрії програмного забезпечення.

Статистика виявлення помилок

«Ми постійно тестуємо наші моделі приблизно на тисячах репозиторіїв з відкритим кодом (з корпусу OSS-Fuzz) та оцінюємо найсерйознішу помилку, яку вони можуть спричинити, за п’ятибальною шкалою. Шкала варіюється від простих збоїв (рівень 1) до повного перехоплення керування потоком (рівень 5). При одноразовому запуску на кожній з приблизно 7 тисяч точок входу в цих репозиторіях, Sonnet 4.6 та Opus 4.6 демонстрували 150–175 випадків збоїв першого рівня та близько 100 випадків другого рівня. Кожна модель досягла лише одного збою третього рівня. На противагу цьому, Mythos Preview спричинив 595 збоїв першого та другого рівнів, додав кілька збоїв третього та четвертого рівнів, а також досяг повного перехоплення керування потоком на десяти окремих, повністю виправлених цільових об’єктах (п’ятий рівень)», — пояснюють розробники з Frontier Red Team.

Історичні вразливості та нові загрози

Серед прикладів помилок, виявлених Mythos, Anthropic наводить 27-річну вразливість у захищеній операційній системі OpenBSD. Ця вразливість дозволяла зловмисникам спричиняти збої лише шляхом підключення до системи. Також було виявлено 16-річну вразливість у бібліотеці FFmpeg. Цікаво, що інструменти автоматизованого тестування звертали увагу на цю проблему близько 5 мільйонів разів, але так і не змогли визначити її причину. Крім того, Mythos виявив низку експлойтів у ядрі Linux, які могли б надати зловмисникам root-доступ до хост-системи.

Думка ІТ-Блогу: Рішення Anthropic обмежити доступ до Claude Mythos свідчить про зростаюче усвідомлення потенційної небезпеки надпотужних ШІ-моделей. Це крок у бік відповідального розвитку технологій, хоча й ставить під питання темпи прогресу для широкого загалу.

Інформація підготовлена на основі матеріалів: itc.ua

Причини обмеженого доступу

Виявлення складних вразливостей

Порівняння з ядерною зброєю

Статистика виявлення помилок

Історичні вразливості та нові загрози

Залишити відповідьСкасувати відповідь