Стартап Physical Intelligence навчив роботів вчитися самостійно: новий "мозок" дозволяє їм опановувати невідомі завдання

Компанія Physical Intelligence, дворічний стартап із Сан-Франциско, що тихо перетворився на одного з найуважніше спостережуваних розробників штучного інтелекту в Кремнієвій долині, опублікувала нове дослідження. Воно демонструє, як їхня остання модель керує роботами для виконання завдань, на які їх ніколи явно не тренували – можливості, що, за словами власних дослідників компанії, стала для них несподіванкою.

Новий крок до універсального робота

Нова модель, позначена як π0.7, уособлює ранній, але значущий крок до довгоочікуваної мети: створення універсального “мозку” для робота. Такий механізм мав би бути здатним отримувати невідоме завдання, проходити інструктаж з нього звичайною мовою та успішно виконувати його. Якщо ці висновки витримають перевірку, вони свідчать про наближення робототехнічного ШІ до переломного моменту, подібного до того, що спостерігався у сфері великих мовних моделей (LLM), де можливості починають нарощуватись у способи, що випереджають прогнози, базуючись лише на вхідних даних.

Композиційна генералізація: вихід за межі тренування

Ключовим нововведенням у дослідженні є так звана композиційна генералізація – здатність комбінувати навички, отримані в різних контекстах, для вирішення проблем, з якими модель раніше не стикалася. До цього часу стандартним підходом до навчання роботів було, по суті, механічне запам’ятовування: збір даних для конкретного завдання, тренування спеціалізованої моделі на цих даних, і повторення процесу для кожного нового завдання. Physical Intelligence стверджує, що π0.7 ламає цей шаблон.

«Коли робот перетинає той поріг, де він починає не просто виконувати те, для чого збиралися дані, а й реміксувати елементи новими способами, — каже Сергій Левін, співзасновник Physical Intelligence та професор Каліфорнійського університету в Берклі, який спеціалізується на ШІ для робототехніки, — його можливості зростають більш ніж лінійно залежно від обсягу даних. Така значно сприятливіша властивість масштабування спостерігалася й в інших доменах, як-от мова та комп’ютерний зір».

Аерофритюрниця: несподіване випробування

Найбільш вражаюча демонстрація в дослідженні стосується аерофритюрниці, яку модель, по суті, ніколи не бачила під час тренування. Дослідницька група виявила, що в усьому тренувальному наборі даних було лише два релевантних епізоди: один, де інший робот просто закривав кришку аерофритюрниці, і один з відкритого набору даних, де ще один робот клав пластикову пляшку всередину за вказівками людини. Модель якимось чином синтезувала ці фрагменти, а також ширші дані попереднього тренування з інтернету, створивши функціональне розуміння роботи приладу.

«Дуже важко відстежити, звідки надходить знання, або де модель буде успішною чи зазнає невдачі, — зазначає Люсі Ші, дослідниця Physical Intelligence та докторантка Стенфордського університету зі спеціалізації «комп’ютерні науки». Проте, без жодних додаткових інструкцій, модель зробила прийнятну спробу приготувати солодку картоплю за допомогою приладу. А з покроковими голосовими вказівками — по суті, людина, яка пояснює роботові завдання так, як ви пояснюєте щось новому співробітнику — вона виконала його успішно».

Ця здатність отримувати інструкції є важливою, оскільки вона означає, що роботи можуть бути розгорнуті в нових середовищах і вдосконалюватися в режимі реального часу без додаткового збору даних або перетренування моделі.

Обмеження та виклики

Тож що це все означає? Дослідники не приховують обмежень моделі та обережні, щоб не випереджати події. Принаймні в одному випадку вони прямо вказують на власну команду. «Іноді режим збою полягає не в роботі чи моделі, — каже Ші. — Він у нас. У недостатньо хорошому промпт-інжинірингу». Вона описує ранній експеримент з аерофритюрницею, який мав 5% успіху. Після приблизно півгодини вдосконалення формулювань завдання для моделі, успіх зріс до 95%.

Стартап Physical Intelligence навчив роботів вчитися самостійно: новий "мозок" дозволяє їм опановувати невідомі завдання 2

Модель також ще не здатна самостійно виконувати складні багатоетапні завдання за однією високорівневою командою. «Ви не можете сказати їй: „Гей, приготуй мені тост“, — каже Левін. — Але якщо ви проведете її через процес: „Для тостера, відкрий цю частину, натисни цю кнопку, зроби це“ — тоді це зазвичай працює досить добре».

Відсутність стандартів та власні метрики

Команда також визнала, що стандартизованих бенчмарків для робототехніки фактично не існує, що ускладнює зовнішню валідацію їхніх заяв. Натомість компанія порівняла π0.7 зі своїми попередніми спеціалізованими моделями — системами, створеними для конкретних завдань, — і виявила, що універсальна модель відповідає їхній продуктивності в діапазоні складних робіт, включаючи приготування кави, складання білизни та пакування коробок.

Неочікувані результати та здивування дослідників

Найбільш помітним у дослідженні, якщо вірити дослідникам, є не окрема демонстрація, а ступінь, до якого результати здивували їх самих — людей, чия робота полягає в точному розумінні того, що міститься в тренувальних даних, і, відповідно, що модель повинна, а що не повинна вміти робити. «Мій досвід завжди полягав у тому, що коли я глибоко знаю, що міститься в даних, я можу приблизно вгадати, що модель зможе зробити, — каже Ашвін Балакрішна, науковий співробітник Physical Intelligence. — Я рідко буваю здивований. Але останні кілька місяців — це вперше, коли я щиро здивований. Я просто випадково купив набір шестерень і запитав робота: „Гей, ти можеш обертати цю шестерню?“ І це просто спрацювало».

Левін згадав момент, коли дослідники вперше побачили, як GPT-2 генерує історію про єдинорогів в Андах. «Де, в біса, він навчився єдинорогам у Перу? — запитує він. — Це таке дивне поєднання. І я думаю, що побачити це в робототехніці — це справді особливе».

Скептицизм та корисність

Природно, критики вкажуть на неприємну асиметрію: мовні моделі мали весь інтернет для навчання. Роботи — ні, і жодна кількість хитрих підказок повністю не заповнює цю прогалину. Але коли його запитують, де він очікує скептицизму, Левін вказує в зовсім іншому напрямку. «Критика, яка завжди може бути висунута проти будь-якої демонстрації робототехнічної генералізації, полягає в тому, що завдання досить нудні, — каже він. — Робот не виконує сальто. Він відкидає таке формулювання, стверджуючи, що різниця між вражаючою демонстрацією робота та роботизованою системою, яка справді узагальнює, полягає саме в цьому. Узагальнення, на його думку, завжди виглядатиме менш драматично, ніж ретельно зрежисований трюк — але воно значно корисніше».

У самій статті використовуються обережні формулювання, описуючи π0.7 як таку, що демонструє «ранні ознаки» генералізації та «початкові демонстрації» нових можливостей. Це результати досліджень, а не готовий до використання продукт.

Фінансування та невизначене майбутнє

Коли його прямо запитали, коли система, заснована на цих результатах, може бути готова до реального розгортання, Левін відмовляється спекулювати. «Я думаю, є вагомі причини бути оптимістичними, і, безумовно, прогрес відбувається швидше, ніж я очікував кілька років тому, — каже він. — Але мені дуже важко відповісти на це запитання».

Physical Intelligence залучила понад 1 мільярд доларів (приблизно 40 мільярдів гривень за поточним курсом) і останнім часом оцінювалася в 5,6 мільярда доларів (приблизно 224 мільярди гривень). Значна частина інвесторського ентузіазму навколо компанії пов’язана з Лачі Грумом, співзасновником, який роками був одним із найвідоміших бізнес-ангелів Кремнієвої долини — інвестуючи, зокрема, у Figma, Notion та Ramp — перш ніж вирішити, що Physical Intelligence — це компанія, яку він шукав. Цей статус допоміг стартапу залучити серйозні інституційні гроші, навіть попри відмову надавати інвесторам комерціалізаційний план.

Зараз компанія, як повідомляється, веде переговори про новий раунд фінансування, який майже подвоїть цю оцінку до 11 мільярдів доларів (приблизно 440 мільярдів гривень). Команда відмовилася коментувати цю інформацію.

Думка ІТ-Блогу: Публікація Physical Intelligence може стати знаковим моментом у розвитку робототехнічного ШІ, наближаючи нас до універсальних роботів. Успіх у композиційній генералізації та здатності навчатися в реальному часі відкриває захопливі перспективи для автоматизації, але вимагатиме подальших досліджень для подолання поточних обмежень.

За матеріалами: techcrunch.com

Стартап Physical Intelligence навчив роботів вчитися самостійно: новий “мозок” дозволяє їм опановувати невідомі завдання

Новий крок до універсального робота

Композиційна генералізація: вихід за межі тренування

Аерофритюрниця: несподіване випробування

Обмеження та виклики

Відсутність стандартів та власні метрики

Неочікувані результати та здивування дослідників

Скептицизм та корисність

Фінансування та невизначене майбутнє

Залишити відповідьСкасувати відповідь

Google спростить доступ до Gemini та Ask Maps у своєму картографічному сервісі

X кардинально оновила Android-додаток: його переписали з нуля

Nvidia навчилася виявляти відеофейки