Три шляхи, якими ШІ вчиться розуміти фізичний світ

Великі мовні моделі (LLM) натрапляють на обмеження в сферах, що вимагають розуміння фізичного світу – від робототехніки до автономного керування та виробництва. Це обмеження спонукає інвесторів до розробки “світових моделей” (world models), про що свідчить залучення AMI Labs $1.03 мільярда на початковому етапі фінансування, невдовзі після того, як World Labs зібрали $1 мільярд.

LLM чудово справляються з обробкою абстрактних знань через передбачення наступного токена, проте їм фундаментально бракує прив’язки до фізичної причинності. Вони не можуть надійно передбачати фізичні наслідки реальних дій.

Дослідники штучного інтелекту та лідери галузі дедалі голосніше говорять про ці обмеження, оскільки індустрія прагне вивести ШІ з браузерів у фізичний простір. В інтерв’ю для подкастера Dwarkesh Patel, лауреат премії Тюрінга Річард Саттон попередив, що LLM лише імітують те, що говорять люди, замість моделювати світ, що обмежує їхню здатність вчитися на досвіді та адаптуватися до змін у світі.

Саме тому моделі, засновані на LLM, включно з візуально-мовними моделями (VLM), можуть демонструвати крихку поведінку та руйнуватися навіть від незначних змін у вхідних даних.

Генеральний директор Google DeepMind Деміс Хассабіс у іншому інтерв’ю підтвердив це, зазначивши, що сучасні моделі ШІ страждають від “нерівномірного інтелекту”. Вони можуть вирішувати складні математичні олімпіади, але зазнають невдачі в базовій фізиці, оскільки їм бракує критично важливих можливостей щодо динаміки реального світу.

Для вирішення цієї проблеми дослідники переорієнтовують свої зусилля на створення світових моделей, які діють як внутрішні симулятори, дозволяючи системам ШІ безпечно тестувати гіпотези перед виконанням фізичних дій. Проте, “світові моделі” – це загальний термін, який охоплює кілька відмінних архітектурних підходів.

Це призвело до появи трьох чітких архітектурних підходів, кожен з яких має свої переваги та недоліки.

JEPA: створені для роботи в реальному часі

Перший основний підхід зосереджується на вивченні прихованих (латентних) представлень замість спроби передбачити динаміку світу на рівні пікселів. Цей метод, підтриманий AMI Labs, значною мірою базується на Joint Embedding Predictive Architecture (JEPA).

Моделі JEPA намагаються імітувати те, як люди сприймають світ. Коли ми спостерігаємо за світом, ми не запам’ятовуємо кожен окремий піксель або несуттєву деталь сцени. Наприклад, спостерігаючи за автомобілем, що рухається вулицею, ми відстежуємо його траєкторію та швидкість; ми не розраховуємо точне відбиття світла на кожному листі дерев на задньому плані.

Три шляхи, якими ШІ вчиться розуміти фізичний світ 2

Моделі JEPA відтворюють цей людський когнітивний “швидкий шлях”. Замість того, щоб змушувати нейромережу точно передбачати, як виглядатиме наступний кадр відео, модель вивчає менший набір абстрактних, або “латентних”, ознак. Вона відкидає несуттєві деталі та повністю зосереджується на основних правилах взаємодії елементів у сцені. Це робить модель стійкою до фонового шуму та незначних змін, які можуть вивести з ладу інші моделі.

Ця архітектура є надзвичайно ефективною з точки зору обчислювальних потужностей та пам’яті. Ігноруючи несуттєві деталі, вона потребує значно менше прикладів для навчання та працює зі значно нижчою затримкою. Ці характеристики роблять її придатною для застосувань, де ефективність та обробка в реальному часі є обов’язковими, таких як робототехніка, автономні автомобілі та критично важливі корпоративні робочі процеси.

Наприклад, AMI співпрацює з медичною компанією Nabla, щоб використовувати цю архітектуру для симуляції операційної складності та зниження когнітивного навантаження в умовах швидкого темпу медичних закладів.

Ян ЛеКун, піонер архітектури JEPA та співзасновник AMI, пояснив в інтерв’ю Newsweek, що світові моделі на основі JEPA розроблені бути “керованими в тому сенсі, що ви можете ставити їм цілі, і за своєю конструкцією вони можуть лише досягати цих цілей”.

Гауссові сплети: створені для простору

Другий підхід спирається на генеративні моделі для створення повних просторових середовищ з нуля. Цей метод, прийнятий такими компаніями, як World Labs, бере початковий запит (це може бути зображення або текстовий опис) і використовує генеративну модель для створення 3D Гауссових сплетів (Gaussian splats). Гауссові сплети – це техніка представлення 3D-сцен за допомогою мільйонів крихітних математичних частинок, що визначають геометрію та освітлення. На відміну від пласкої генерації відео, ці 3D-представлення можна безпосередньо імпортувати у стандартні фізичні та 3D-рушії, такі як Unreal Engine, де користувачі та інші агенти ШІ можуть вільно переміщатися та взаємодіяти з ними під будь-яким кутом.

Основна перевага тут – це різке скорочення часу та одноразових витрат на генерацію, необхідних для створення складних інтерактивних 3D-середовищ. Це вирішує саме ту проблему, яку окреслила засновник World Labs Фей-Фей Лі, зазначивши, що LLM, врешті-решт, схожі на “майстрів слова в темряві”, володіючи квітучою мовою, але позбавлені просторового інтелекту та фізичного досвіду. Модель Marble від World Labs надає ШІ цю відсутню просторову обізнаність.

Хоча цей підхід не призначений для миттєвого виконання в реальному часі, він має величезний потенціал для просторових обчислень, інтерактивних розваг, промислового дизайну та створення статичних навчальних середовищ для робототехніки. Цінність для бізнесу очевидна завдяки значній підтримці World Labs з боку Autodesk для інтеграції цих моделей у їхні програми для промислового дизайну.

Наскрізна генерація: створені для масштабу

Третій підхід використовує наскрізну генеративну модель для обробки запитів та дій користувача, безперервно генеруючи сцену, фізичну динаміку та реакції “на льоту”. Замість експорту статичного 3D-файлу до окремого фізичного рушія, сама модель діє як рушій. Вона отримує початковий запит разом із безперервним потоком дій користувача та генерує подальші кадри середовища в реальному часі, обчислюючи фізику, освітлення та реакції об’єктів нативно.

DeepMind Genie 3 та Nvidia Cosmos належать до цієї категорії. Ці моделі надають надзвичайно простий інтерфейс для генерації нескінченних інтерактивних досвідів та величезних обсягів синтетичних даних. DeepMind продемонструвала це нативно за допомогою Genie 3, показавши, як модель підтримує суворе збереження об’єктів та послідовну фізику при 24 кадрах на секунду без використання окремого модуля пам’яті.

Цей підхід безпосередньо трансформується в потужні фабрики синтетичних даних. Nvidia Cosmos використовує цю архітектуру для масштабування синтетичних даних та фізичного міркування ШІ, дозволяючи розробникам автономних транспортних засобів та робототехніки синтезувати рідкісні, небезпечні граничні умови без витрат або ризиків фізичного тестування. Waymo (дочірня компанія Alphabet) побудувала свою світову модель на основі Genie 3, адаптувавши її для навчання своїх самокерованих автомобілів.

Недоліком цього наскрізного генеративного методу є висока вартість обчислень, необхідна для одночасного безперервного рендерингу фізики та пікселів. Тим не менш, ці інвестиції є необхідними для досягнення бачення, викладеного Хассабісом, який стверджує, що глибоке внутрішнє розуміння фізичної причинності є обов’язковим, оскільки сучасний ШІ позбавлений критичних можливостей для безпечної роботи в реальному світі.

Що далі: гібридні архітектури

LLM продовжуватимуть служити інтерфейсом для міркування та комунікації, але світові моделі позиціонують себе як фундаментальну інфраструктуру для фізичних та просторових конвеєрів даних. У міру дозрівання базових моделей ми спостерігаємо появу гібридних архітектур, які використовують сильні сторони кожного підходу.

Наприклад, стартап у сфері кібербезпеки DeepTempo нещодавно розробив LogLM, модель, яка інтегрує елементи з LLM та JEPA для виявлення аномалій та кіберзагроз з логів безпеки та мережевих журналів.

Прогноз ІТ-Блогу: Очікується, що наступні 1-2 роки принесуть значний прогрес у створенні уніфікованих світових моделей, які зможуть ефективно поєднувати сильні сторони JEPA, гауссових сплетів та наскрізної генерації. Це відкриє нові горизонти для робототехніки, симуляцій та взаємодії людини з комп’ютером, роблячи ШІ ще більш інтегрованим у фізичний світ.

Оригінал статті: venturebeat.com

JEPA: створені для роботи в реальному часі

Гауссові сплети: створені для простору

Наскрізна генерація: створені для масштабу

Що далі: гібридні архітектури

Залишити відповідьСкасувати відповідь