Alibaba показала, як покращити роботу агентів без їхнього навчання

Команда Qwen від Alibaba представила Qwen-AgentWorld — два інноваційні моделі, навчені не взаємодіяти в симульованих середовищах, а передбачати їхню реакцію. Це досягнення охоплює сім різних доменів у рамках єдиної архітектури: MCP, Пошук, Термінал, Розробка програмного забезпечення, Android, Веб та Операційні системи.

Цей реліз є продовженням активних зусиль Alibaba у сфері автономних агентів. Модель Qwen3.7-Max, випущена в травні, демонструвала здатність до автономного виконання завдань протягом 35 годин.

Такий підхід спрямований на подолання фундаментальних обмежень, з якими стикаються команди, що масштабують навчання агентів. Реальні пошукові системи видають доступні результати без можливості внесення контрольованих умов. Живі термінали не дозволяють імітувати брак дискового простору за запитом. Навчання агентів обмежується тим, що можуть надати реальні середовища, позбавляючи системного способу виявлення граничних випадків, які агентам доведеться обробляти, але рідко зустрічають під час тренування.

Дослідницька команда навчала агентів у створеному симуляторі й виявила, що це забезпечує кращу продуктивність порівняно з навчанням виключно на реальних середовищах. В окремому тесті використання “моделі світу” як попереднього етапу перед доналаштуванням агентів покращило результати на семи бенчмарках, включаючи три, які модель ніколи не бачила під час тренування.

У супровідній статті дослідники вказали на прогалину в попередніх дослідженнях агентів: “Ми стверджуємо, що моделювання світу є критично важливим відсутнім елементом на шляху до створення загальних агентів”.

Qwen-AgentWorld навчається на відповідях середовищ, а не на діях агентів

Більшість моделей агентів навчаються відповідати на одне запитання: враховуючи те, що середовище щойно мені показало, що я маю робити далі? Qwen-AgentWorld навчається відповідати на зворотне запитання: враховуючи те, що агент щойно зробив, що середовище покаже наступним?

Ця зміна перспективи є основою того, що в статті названо мовною моделлю світу (language world model). Замість оптимізації вибору дій, модель вчиться передбачати наступний стан середовища в усіх семи доменах за єдиною метою навчання. Попередні роботи були більш вузькоспеціалізованими: WebWorld, попередній проєкт Qwen від лютого, охоплював лише веб-середовища; Agent World Model від Snowflake, опублікований того ж місяця, генерує середовища на основі коду та SQL, а не тренує модель для передбачення станів. Qwen-AgentWorld є першою моделлю, яка охоплює сім доменів в одній архітектурі, з моделюванням середовища, інтегрованим з найраніших етапів попереднього навчання.

Alibaba тренувала обидві моделі у три етапи, використовуючи понад 10 мільйонів траєкторій взаємодії із середовищем з реальних запусків агентів. Перший етап навчає модель, як поводяться середовища — файлові системи, стани терміналу, зміни DOM браузера, відповіді API. Другий етап тренує модель міркувати про те, що станеться далі, перед тим, як це передбачити. Третій етап, навчання з підкріпленням, уточнює прогнози за допомогою перевірок на основі правил та відкритої оцінки якості.

Обидві моделі використовують архітектуру “суміш експертів” (Mixture-of-Experts), де лише частина параметрів активується для кожного токена. 35-мільярдна модель активує 3 мільярди параметрів, а 397-мільярдна — 17 мільярдів. Обидві підтримують контекстне вікно до 256 тисяч токенів. Для графічних інтерфейсів (Android, Web та OS) моделі працюють з текстовими деревами доступності та ієрархіями представлення UI, а не зі скріншотами.

Ваги 35-мільярдної моделі та набір даних AgentWorldBench доступні під ліцензією Apache 2.0; ваги 397-мільярдної моделі не були опубліковані.

Результати тренування важливіші за бенчмарки

Оцінки на бенчмарках демонструють точність передбачень моделями станів середовищ. Однак, результати тренування показують реальну цінність цієї здатності для команд, які створюють агентів — і саме ці цифри мають більше значення.

За словами дослідників, агенти, навчені в контрольованій симуляції, перевершили агентів, навчених на реальних середовищах. Внесення цільових збурень — часткових відповідей, що вимагають додаткових кроків агента, та граничних випадків, які рідко зустрічаються в реальних середовищах — підвищило показник MCPMark з 24.6 до 33.8. У домені пошуку агенти, навчені в повністю вигаданих світах, успішно перенесли свої навички на реальні пошукові завдання, підвищивши показник WideSearch F1 Item з 34.02 до 50.31 на відкритій 35-мільярдній моделі. Окремий тест попереднього тренування показав, що попереднє навчання з моделлю світу покращило результати BFCL v4 з 62.29 до 71.25 та Claw-Eval з 53.60 до 64.88 без специфічного доналаштування агентів.

Alibaba показала, як покращити роботу агентів без їхнього навчання 2

Дослідники застерігають щодо бенчмарків та ризику перенавчання

Публікація викликала негайну реакцію дослідників ШІ у соціальній мережі X. Висловлені занепокоєння стосуються аспектів, які практикам необхідно перевірити перед тим, як діяти на основі цих висновків.

Щодо цілей навчання та результатів перенесення знань, оцінка від одного з дослідників у сфері ШІ/ML була прямою. “Кожна інша модель ‘агента’ навчалася діяти в середовищах”, — написав @drawais_ai, який має докторський ступінь і регулярно аналізує наукові статті про ШІ. “Qwen перевернув питання. Вони навчили модель передбачати саме середовище… Ці передбачувальні знання потім передаються на завдання агентів навіть без будь-якого специфічного доналаштування”. Він зазначив, що результат Controllable Sim RL є “доказом” того, що синтетичне навчання може замінити навчання з підкріпленням на реальних середовищах у великих масштабах, і підкреслив, що три з семи бенчмарків перенесення знань були абсолютно з інших доменів.

Різниця в оцінках бенчмарків викликала негайну критику. “AgentWorldBench — це бенчмарк, створений Alibaba і опублікований у тій самій статті”, — написав @TheSignal_Desk, який зосереджується на об’єктивних оцінках та ключових цифрах у дослідженнях ШІ. “Вони створили тест, а потім показали результат на 0.46 вище”.

Методологія sim-RL (симуляційного навчання з підкріпленням) є тим аспектом, який, на думку @limalemonnn, розробника продакшн-агентів ШІ, потребує найбільшої уваги, перш ніж основний висновок буде цитуватися. “Агенти, навчені в симуляторі, традиційно перенавчаються на специфіці симулятора”, — написав він. “Якщо модель світу занадто спрощена, агент вивчає модель, а не завдання”. Він вказав на розділ статті про відкладену вибірку як на частину, яку практикам слід вивчити перед тим, як покладатися на ці цифри.

Занепокоєння щодо перенавчання частково знімається аналізом даних. Різниця між неконтрольованим Sim RL (MCPMark 24.6) та контрольованим Sim RL (MCPMark 33.8) свідчить про те, що приріст продуктивності значною мірою залежить від механізму контрольованості, а не лише від точності симуляції. Результат у домені Пошуку, де агенти, навчені у вигаданих середовищах, переносять знання на реальні пошукові завдання, є найсильнішим доказом у статті проти занепокоєння щодо перенавчання.

Що це означає для команд, які створюють конвеєри агентів

Для команд інженерів ШІ, які розробляють та масштабують конвеєри агентів, ця робота сигналізує про значний зсув у способах створення можливостей агентів. Команди, що навчають агентів у великих масштабах, тепер мають третій варіант між навчанням з підкріпленням на реальних середовищах та статичними бенчмарками: контрольовану симуляцію, яка впроваджує граничні випадки, які неможливо отримати в продакшн-середовищах.

Синтетичні середовища є легітимним шаром навчання. Контрольована симуляція, яка впроваджує умови, що не можуть бути відтворені в реальних середовищах, є доповненням до навчання з підкріпленням на реальних середовищах, а не способом його уникнути.

Те, що модель вивчає до початку навчання агентів, є важливішим, ніж враховують більшість конвеєрів. Висновок щодо попереднього тренування — приріст продуктивності на невідомих бенчмарках без специфічного для агентів навчання — свідчить про те, що “заземлення” моделі у відповідному середовищі має відбуватися раніше в процесі розробки, ніж це практикується зараз.

Прогноз ІТ-Блогу: Впровадження моделей, що передбачають середовища, змінить парадигму навчання автономних систем. Очікується, що розробники почнуть інтегрувати такі “світові моделі” на ранніх етапах, що призведе до створення більш стійких та адаптивних агентів, здатних краще справлятися з непередбачуваними сценаріями в реальному світі.

Оригінал статті: venturebeat.com

Qwen-AgentWorld навчається на відповідях середовищ, а не на діях агентів

Результати тренування важливіші за бенчмарки

Дослідники застерігають щодо бенчмарків та ризику перенавчання

Що це означає для команд, які створюють конвеєри агентів

Залишити відповідьСкасувати відповідь