AI-агенти та недовірений код: як нові архітектури обмежують небезпечну зону

AI-агенти та недовірений код: як нові архітектури обмежують небезпечну зону 1

Чотири окремі доповіді на RSAC 2026 дійшли однакового висновку без координації. Васу Джаккал з Microsoft заявила присутнім, що концепція нульової довіри (zero trust) має поширюватися на штучний інтелект (ШІ). Джіту Пател з Cisco закликав до переходу від контролю доступу до контролю дій, зазначивши в ексклюзивному інтерв’ю VentureBeat, що агенти поводяться «більше як підлітки: надзвичайно розумні, але без страху наслідків». Джордж Курц з CrowdStrike визначив управління ШІ як найбільшу прогалину в корпоративних технологіях. Джон Морган зі Splunk закликав до моделі довіри та управління для агентів. Чотири компанії. Чотири етапи. Одна проблема.

Метт Коулфілд, віце-президент з продуктів для ідентифікації та Duo в Cisco, прямо заявив в ексклюзивному інтерв’ю VentureBeat на RSAC: «Хоча концепція нульової довіри є хорошою, нам потрібно зробити крок далі. Йдеться не лише про одноразову автентифікацію, після якої агент може діяти безконтрольно. Це про постійну перевірку та ретельний аналіз кожної дії, яку намагається виконати агент, оскільки в будь-який момент цей агент може вийти з-під контролю».

За даними опитування PwC 2025 AI Agent Survey, 79% організацій вже використовують ШІ-агентів. Натомість, згідно зі звітом Gravitee State of AI Agent Security 2026, проведеним серед 919 організацій у лютому 2026 року, лише 14,4% повідомили про повне схвалення безпеки для свого парку агентів. Опитування CSA, представлене на RSAC, виявило, що лише 26% мають політики управління ШІ. Framework Agentic Trust від CSA описує цю невідповідність між швидкістю розгортання та готовністю до безпеки як надзвичайну ситуацію в галузі управління.

Лідери кібербезпеки та керівники галузі на RSAC погодилися з проблемою. Потім дві компанії представили архітектури, які по-різному відповідають на це запитання. Розбіжності між їхніми дизайнами виявляють справжній ризик.

Проблема монолітних агентів, яку успадковують команди безпеки

Стандартним патерном корпоративного агента є монолітний контейнер. Ця модель генерує міркування, викликає інструменти, виконує згенерований код та зберігає облікові дані в одному процесі. Кожен компонент довіряє кожному іншому. OAuth-токени, API-ключі та git-облікові дані знаходяться в тому ж середовищі, де агент виконує код, написаний ним секунду тому. Атака через “prompt injection” (введення шкідливих інструкцій у запит) надає зловмиснику все. Токени можуть бути викрадені. Сесії можуть бути запущені. Радіус ураження — це не тільки агент, а весь контейнер та всі підключені сервіси.

Опитування CSA та Aembit серед 228 ІТ-фахівців та спеціалістів з безпеки кількісно визначає, наскільки поширеною залишається ця проблема: 43% використовують спільні облікові записи служб для агентів, 52% покладаються на ідентичності робочих навантажень замість облікових даних, специфічних для агентів, а 68% не можуть відрізнити активність агентів від активності людини у своїх логах. Жодна окрема функція не претендувала на відповідальність за доступ ШІ-агентів. Служба безпеки вважала це відповідальністю розробників. Розробники перекладали відповідальність на службу безпеки. Ніхто не взяв на себе цю роль.

Технічний директор CrowdStrike Елія Зайцев в ексклюзивному інтерв’ю VentureBeat зазначив, що цей патерн має бути знайомим. «Багато аспектів забезпечення безпеки агентів будуть дуже схожі на забезпечення безпеки привілейованих користувачів. Вони мають ідентичності, доступ до базових систем, генерують міркування та виконують дії. Рідко існуватиме єдине рішення, яке буде панацеєю. Це стратегія оборони в глибину (defense in depth)».

На RSAC генеральний директор CrowdStrike Джордж Курц під час своєї доповіді висвітлив ClawHavoc — кампанію ланцюга поставок, спрямовану на фреймворк агентів OpenClaw. Кампанію під такою назвою визначила Koi Security 1 лютого 2026 року. За даними численних незалежних аналізів кампанії, Antiy CERT підтвердив 1184 шкідливі навички, пов’язані з 12 обліковими записами видавців. Дослідження Snyk ToxicSkills виявило, що 36,8% з 3984 проаналізованих навичок ClawHub містять недоліки безпеки будь-якого рівня серйозності, при цьому 13,4% оцінені як критичні. Середній час до прориву скоротився до 29 хвилин. Найшвидший зафіксований випадок: 27 секунд. (Згідно зі звітом CrowdStrike Global Threat Report 2026).

Anthropic відокремлює “мозок” від “рук”

Managed Agents від Anthropic, випущені 8 квітня у публічному бета-тестуванні, розділяють кожного агента на три компоненти, які не довіряють один одному: “мозок” (Claude та система маршрутизації, що керує його рішеннями), “руки” (одноразові Linux-контейнери, де виконується код) та “сесія” (зовнішній журнал подій, що тільки доповнюється).

Розділення інструкцій та виконання — один із найстаріших патернів у розробці програмного забезпечення: мікросервіси, безсерверні функції, черги повідомлень.

Облікові дані ніколи не потрапляють до “пісочниці” (sandbox). Anthropic зберігає OAuth-токени у зовнішньому сховищі. Коли агенту потрібно викликати інструмент MCP (Multi-Cloud Platform), він надсилає токен, прив’язаний до сесії, до виділеного проксі-сервера. Проксі-сервер отримує справжні облікові дані зі сховища, виконує зовнішній виклик і повертає результат. Агент ніколи не бачить сам токен. Git-токени прив’язуються до локального віддаленого репозиторію під час ініціалізації “пісочниці”. Операції push і pull працюють без доступу агента до облікових даних. Для директорів з безпеки це означає, що скомпрометована “пісочниця” не надасть зловмиснику нічого, що можна було б повторно використати.

Переваги безпеки з’явилися як побічний ефект оптимізації продуктивності. Anthropic роз’єднав “мозок” і “руки”, щоб виведення (inference) могло розпочатися ще до завантаження контейнера. Середній час до першого токена скоротився приблизно на 60%. Дизайн з нульовою довірою виявився найшвидшим дизайном, що спростовує заперечення підприємств щодо збільшення затримок через безпеку.

Третьою структурною перевагою є стійкість сесії. Збій контейнера в монолітному патерні призводить до повної втрати стану. У Managed Agents журнал сесії зберігається поза межами “мозку” та “рук”. Якщо система маршрутизації дає збій, завантажується новий екземпляр, зчитує журнал подій і відновлює роботу. Відсутність втрати стану з часом перетворюється на зростання продуктивності. Managed Agents включають вбудоване відстеження сесій через Claude Console.

Ціна: 0,08 долара США за годину активної роботи сесії (без урахування часу простою) плюс стандартні витрати на API-токени. Директори з безпеки тепер можуть моделювати вартість компрометації агента за годину сесії проти вартості архітектурних контролів.

Nvidia жорстко обмежує “пісочницю” та контролює все всередині

Nvidia NemoClaw, випущений 16 березня в ранньому попередньому перегляді, застосовує протилежний підхід. Він не відокремлює агента від середовища виконання. Замість цього він обгортає всього агента в чотири вкладені шари безпеки та спостерігає за кожним його рухом. Anthropic та Nvidia — єдині два постачальники, які на момент написання цього тексту випустили публічні архітектури агентів з нульовою довірою; інші перебувають у розробці.

NemoClaw створює п’ять рівнів примусу між агентом і хост-системою. Виконання в “пісочниці” використовує Landlock, seccomp та мережеву просторову ізоляцію на рівні ядра. Мережеві з’єднання за замовчуванням заборонені, що змушує кожне зовнішнє з’єднання проходити явне схвалення оператором через політику на основі YAML. Доступ надається з мінімальними привілеями. Поліпшений роутер конфіденційності спрямовує чутливі запити до локально запущених моделей Nemotron, зменшуючи витрати на токени та усуваючи витік даних. Шар, який найбільше хвилює команди безпеки, — це перевірка намірів: механізм політики OpenShell перехоплює кожну дію агента перед тим, як вона торкнеться хост-системи. Компроміс для організацій, які оцінюють NemoClaw, є прямолінійним: підвищена видимість під час виконання потребує більше операторського персоналу.

Агент не знає, що він знаходиться в NemoClaw. Дії, що відповідають політиці, повертаються нормально. Дії, що суперечать політиці, отримують конфігуровану відмову.

Спостережуваність (observability) є найсильнішим шаром. Інтерфейс терміналу (Terminal User Interface) в реальному часі реєструє кожну дію, кожен мережевий запит, кожне заблоковане з’єднання. Аудиторський слід є повним. Проблема полягає у вартості: навантаження на оператора лінійно масштабується з активністю агента. Кожен новий кінцевий пункт потребує ручного схвалення. Якість спостереження висока, але автономність низька. Таке співвідношення швидко стає дорогим у виробничих середовищах, що працюють з десятками агентів.

Стійкість (durability) — це прогалина, про яку ніхто не говорить. Стан агента зберігається у вигляді файлів всередині “пісочниці”. Якщо “пісочниця” виходить з ладу, стан втрачається разом з нею. Відсутній механізм відновлення сесії ззовні. Довготривалі завдання агента несуть ризик втрати стійкості, який команди безпеки повинні врахувати при плануванні розгортання, перш ніж вони потраплять у виробництво.

Прогалина в близькості облікових даних

Обидві архітектури є реальним кроком уперед порівняно з монолітним стандартом. Розбіжність полягає в питанні, яке найбільше хвилює команди безпеки: наскільки близько облікові дані знаходяться до середовища виконання?

Anthropic повністю усуває облікові дані з радіусу ураження. Якщо зловмисник скомпрометує “пісочницю” через “prompt injection”, він отримає одноразовий контейнер без токенів і без постійного стану. Викрадення облікових даних вимагатиме атаки з двома стрибками: вплинути на міркування “мозку”, а потім змусити його діяти через контейнер, який не містить нічого цінного для викрадення. Однострибкове викрадення структурно усувається.

Nvidia NemoClaw обмежує радіус ураження та контролює кожну дію всередині нього. Чотири шари безпеки обмежують горизонтальне переміщення. Мережеві з’єднання за замовчуванням блокують неавторизовані підключення. Однак агент і згенерований код спільно використовують ту саму “пісочницю”. Роутер конфіденційності Nvidia зберігає облікові дані для виведення на хост-системі, поза межами “пісочниці”. Але токени для обміну повідомленнями та інтеграції (Telegram, Slack, Discord) передаються в “пісочницю” як змінні середовища виконання. Ключі API для виведення проксіруються через роутер конфіденційності і не передаються безпосередньо в “пісочницю”. Рівень експозиції варіюється залежно від типу облікових даних. Облікові дані контролюються політикою, а не структурно видаляються.

Ця відмінність має найбільше значення для непрямого “prompt injection”, коли зловмисник вбудовує інструкції в контент, який агент запитує як частину легітимної роботи. Отруєна веб-сторінка. Маніпульована відповідь API. Шар перевірки намірів оцінює те, що агент пропонує зробити, а не вміст даних, отриманих від зовнішніх інструментів. Введені інструкції потрапляють у ланцюг міркувань як довірений контекст. З близькістю до виконання.

В архітектурі Anthropic непряме введення може вплинути на міркування, але не може дістатися до сховища облікових даних. В архітектурі Nvidia NemoClaw введений контекст знаходиться поруч як з міркуванням, так і з виконанням у спільній “пісочниці”. Це найбільша розбіжність між двома дизайнами.

Девід Браухлер, технічний директор та керівник відділу безпеки ШІ/ML в NCC Group, виступає за архітектури агентів із контрольованим доступом, побудовані на принципах сегментації довіри, де системи ШІ успадковують рівень довіри даних, які вони обробляють. Недовірений ввід, обмежені можливості. Обидві компанії, Anthropic і Nvidia, рухаються в цьому напрямку. Жодна не досягла кінцевої мелі.

Аудит архітектури нульової довіри для ШІ-агентів

Таблиця аудиту охоплює три моделі постачальників у шести вимірах безпеки, п’ять дій на рядок. Вона зводиться до п’яти пріоритетів:

AI-агенти та недовірений код: як нові архітектури обмежують небезпечну зону 2
  1. Проведіть аудит кожного розгорнутого агента на наявність монолітного патерну. Позначте будь-якого агента, який зберігає OAuth-токени у своєму середовищі виконання. Дані CSA показують, що 43% використовують спільні облікові записи служб. Це першочергові цілі.

  2. Вимагайте ізоляції облікових даних у запитах пропозицій (RFP) для розгортання агентів. Вкажіть, чи постачальник видаляє облікові дані структурно, чи контролює їх через політику. Обидва методи зменшують ризик, але з різним ступенем ефективності та різними сценаріями відмови.

  3. Протестуйте відновлення сесії перед виведенням у виробництво. Примусово завершіть “пісочницю” під час виконання завдання. Перевірте, чи зберігається стан. Якщо ні, довготривала робота несе ризик втрати даних, який зростає пропорційно тривалості завдання.

  4. Забезпечте належний персонал для моделі спостережуваності. Трасування в консолі Anthropic інтегрується з існуючими робочими процесами спостережуваності. TUI NemoClaw вимагає оператора в циклі. Розрахунок потреби в персоналі відрізняється.

  5. Відстежуйте дорожні карти щодо непрямого “prompt injection”. Жодна з архітектур повністю не вирішує цей вектор атаки. Anthropic обмежує радіус ураження успішної атаки. NemoClaw перехоплює шкідливі запропоновані дії, але не шкідливі повернуті дані. Вимагайте від постачальників зобов’язань щодо дорожніх карт щодо цієї конкретної прогалини.

Концепція нульової довіри для ШІ-агентів перестала бути дослідницькою темою з моменту випуску перших двох архітектур. Монолітний стандарт є обтяжливою умовою. Розрив у 65% між швидкістю розгортання та схваленням безпеки — це місце, де почнеться наступна хвиля зламу.

Як захиститися (Порада ІТ-Блогу): Наполегливо рекомендується використовувати двофакторну автентифікацію (2FA) для всіх облікових записів, особливо для тих, що мають доступ до критично важливих систем. Перевіряйте джерела програмного забезпечення та уважно ставтеся до фішингових листів, які можуть містити шкідливе програмне забезпечення або спробувати викрасти ваші дані.

Подробиці можна знайти на сайті: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *