
Хоча дослідники та лабораторії штучного інтелекту досягли значного прогресу в оцінці моделей ШІ за різними параметрами – від безпеки та відповідності до догоджання та узгодженості, – компанії та розробники стикаються з новою специфічною потребою: забезпечення того, щоб їхня система ШІ поводилася саме так, як це передбачено для конкретного продукту чи послуги.
Щоб спростити цей процес тестування, Microsoft минулого вівторка представила ASSERT – систему Adaptive Spec-driven Scoring for Evaluation and Regression Testing (Адаптивне Оцінювання на Основі Специфікацій для Тестування та Регресії).
ASSERT: Новий підхід до тестування ШІ
Ця платформа з відкритим кодом, як стверджує Microsoft, робить процес оцінки поведінки ШІ, специфічної для конкретного застосунку, простішим. Вона використовує сам ШІ для перетворення описів цілей, політик або передбачуваної поведінки, наданих природною мовою, на ретельні, оцінені тести, які можна досліджувати.
ASSERT приймає опис очікуваної поведінки моделі ШІ та її політик простою мовою, перетворює їх на структурований набір прийнятних і неприйнятних дій, генерує сценарії проблем та тестові випадки, запускає їх проти цільової системи та оцінює результати. Вона також може записувати шляхи, якими рухалася система ШІ, включаючи проміжні дії та виклики інструментів, що дозволяє розробникам детально вивчати місця виникнення збоїв.
Розробники можуть також надавати контекст системи, інструменти та обмеження, якщо вони хочуть додатково налаштувати охоплення оцінок.
Практичний приклад використання
Наприклад, розробник може вказати, що ШІ-агент для дослідження документів не повинен надсилати електронні листи особам поза межами компанії, а конфіденційну інформацію має обмежувати лише керівниками рівня C. Крім того, він повинен надавати стислі резюме, враховуючи попередній контекст. ASSERT використовуватиме ці правила для генерації тестових випадків, які постійно перевірятимуть дотримання системою цих норм.

Заповнення ніші в галузі
За словами Microsoft, ця платформа заповнює прогалину, яку не можуть охопити більш загальні оцінки, коли моделі ШІ призначені для поведінки, що формується контекстом, політиками та інструментами застосунку чи продукту.
«Одна з речей, яку ми засвоїли, полягає в тому, що оцінки є абсолютно критично важливими для прийняття правильних рішень», — зазначила Сара Берд, директорка з продуктів відповідального ШІ в Microsoft. «Тому що, якщо ви не розумієте поведінки системи ШІ, надзвичайно важко зрозуміти, чи відповідає вона стандартам вашої організації… Ми виявили, що якщо ви справді хочете мати надійну систему, ви повинні оцінювати значно більше вимірів, специфічних для конкретного застосунку».
Берд додала, що ASSERT може використовуватися для оцінки систем на етапі їх розробки, після розгортання та навіть для безперервного моніторингу.
Контекст галузі
Випуск ASSERT відбувається на тлі поступової, але ширшої тенденції в індустрії ШІ. Зі зростанням можливостей моделей, дослідники зосереджуються на повторюваному тестуванні та регресійних перевірках. Такі ініціативи, як HELM від Стенфорду, AILuminate від MLCommons та групи з оцінки, подібні до METR, розробляють бенчмарки для вимірювання поведінки моделей за різних умов.
Коли ви здійснюєте покупки за посиланнями в наших статтях, ми можемо отримувати невелику комісію. Це не впливає на нашу редакційну незалежність.
Думка ІТ-Блогу: Випуск ASSERT від Microsoft сигналізує про зсув у фокусі розробки ШІ від загальних оцінок до глибокого, контекстно-залежного тестування. Це дозволить компаніям швидше виводити на ринок більш надійні та безпечні ШІ-рішення, адаптовані до їхніх конкретних продуктів.
За даними порталу: techcrunch.com
