
Агенти штучного інтелекту (ШІ) невпинно вдосконалюються. Вони еволюціонують від простого надання відповідей на запитання до самостійного виконання складних багатоетапних завдань.
Виклики верифікації ШІ-агентів
Однак, перш ніж користувачі зможуть довірити цим агентам бронювання подорожей чи проведення фінансового аналізу від їхнього імені, розробники моделей та стартапи, що створюють таких агентів, прагнуть гарантувати їхню надійну роботу в найрізноманітніших сценаріях. Хоча ШІ-лабораторії часто використовують бенчмарки (стандартизовані тести) для демонстрації потужності своїх моделей, високий результат, навіть у тестах, орієнтованих на агентів, насправді не доводить, що ШІ може коректно виконувати різноманітні складні реальні завдання.
Patronus AI: симуляція для тестування
Patronus AI, стартап, заснований у 2023 році колишніми дослідниками Meta AI Анандом Каннаппаном та Ребеккою Цянь, допомагає виробникам моделей та компаніям доопрацьовувати свої розробки. Вони досягають цього шляхом створення симульованих цифрових середовищ, де можна оцінити продуктивність агентів. Компанія, розташована в Сан-Франциско, очевидно, вирішує важливу проблему. За словами Гленна Соломона, керівного директора Notable Capital, майже кожна передова ШІ-лабораторія та багато стартапів вже є їхніми клієнтами, а попит на симульовані середовища компанії він описує як майже ненаситний.
Інвестиційний успіх та технологія
Дохід Patronus зріс у 15 разів за останній рік, що зумовило значний інтерес інвесторів. У четвер компанія оголосила про залучення $50 мільйонів у рамках раунду фінансування Series B, який очолила Greenfield Partners за участі Notable Capital, Lightspeed, Datadog та Samsung. Загальна сума залучених коштів компанії тепер становить $70 мільйонів. Patronus використовує так звані “цифрові моделі світу” для створення копій вебсайтів та внутрішніх систем. У цих середовищах агенти проходять стрес-тестування після навчання з використанням навчання з підкріпленням (reinforcement learning) — методу, що ітеративно винагороджує успішне виконання завдань та штрафує за помилки.
Симуляція як шлях до надійності
ШІ-лабораторії бачать величезну цінність у таких цифрових симуляціях, оскільки вони дають агентам можливість спробувати різні, іноді непередбачувані, сценарії. Компанія порівнює свій підхід до того, як Waymo тренувала автономні автомобілі, спочатку створюючи синтетичні світи для тестування транспортних засобів проти рідкісних небезпек, таких як сувора погода або дитина, що біжить за м’ячем. Відмінність з ШІ-агентами полягає в тому, що вони схильні шукати “швидкі шляхи” (shortcuts), що призводить до неправильного виконання завдання. “Patronus дуже добре виявляє ці лазівки і забезпечує підзвітність моделей”, — зазначив Соломон.
Перспективи розвитку
Наразі Patronus надає свої симульовані цифрові світи для розробки програмного забезпечення та фінансів, але це лише початок, за словами Каннапана. “Сьогодні ми дуже зосереджені на проблемах, які можна верифікувати, тобто на тих, які можна миттєво перевірити. Але існує безліч інших сфер, які дуже важко або майже неможливо верифікувати”, — сказав він. Те, що ці процеси піддаються верифікації, не означає, що вони прості. “Ми хочемо мати можливість створити середовище, в якому агент може працювати 10 годин, 10 днів або 10 тижнів”, — додав Каннапан.
Конкурентне середовище
Щодо конкурентів, Patronus вважає, що змагається переважно з внутрішніми командами, які вже створили ШІ-лабораторії для оцінки поведінки агентів. Хоча фірми, що працюють з людськими даними, як-от Mercor та Surge, допомагають розробникам моделей з навчанням з підкріпленням, Patronus діє інакше, оцінюючи поведінку агентів без будь-якої людської участі.
Думка ІТ-Блогу: Розвиток платформ на кшталт Patronus AI є критично важливим для підвищення довіри до складних систем штучного інтелекту, що полегшить їх широке впровадження у бізнес-процесах та повсякденному житті. Інвестиції в такі технології свідчать про усвідомлення ринком потреби у надійному тестуванні ШІ перед його масштабуванням.
Джерело новини: techcrunch.com
