
Стартап Decart, що спеціалізується на штучному інтелекті, представив Oasis 3 – свою новітню інтерактивну модель світу, здатну генерувати фотореалістичні середовища для водіння в реальному часі. Модель наразі доступна через API.
На початковому етапі компанія орієнтується на розробників автономних транспортних засобів, яким необхідно масштабувати симуляцію рідкісних дорожніх сценаріїв. У планах Decart – розширення на сфери робототехніки та інших фізичних ШІ-додатків. Однак головна ставка робиться на розробників: надаючи доступ до API з першого дня, Decart прагне створити екосистему навколо своїх моделей світу, подібно до того, як OpenAI діяла з мовними моделями.
«Це буде перша утилітарна модель світу, на основі якої люди зможуть реально програмувати», — заявив Дін Лейтерсдорф, співзасновник і генеральний директор Decart. «Я думаю, що навколо цього сформується ціла спільнота розробників».
Компанія вже має спільноту з понад 100 000 розробників, багато з яких створюють продукти на основі її моделі відео в реальному часі Lucy, переважно у сферах електронної комерції та стрімінгу. Oasis 3 побудована на цій фундаментальній моделі і представляє собою крок компанії до фізичного ШІ. Доступ до API коштує 0,02 долара за секунду, а корпоративні тарифи залежать від конкретних сценаріїв використання.
Decart працює на все більш конкурентному полі моделей світу. Минулого року Google представила Genie 3 в дослідницькому попередньому перегляді, World Labs Фей-Фей Лі запустила Marble для комерційного використання, а стартапи з генерації відео, такі як Luma і Runway, також трансформують свої фізично-обізнані відеомоделі у моделі світу.

Випуск Oasis 3 відбувся через кілька тижнів після того, як дворічний стартап Decart залучив 300 мільйонів доларів. Лейтерсдорф стверджує, що це сталося завдяки «величезному зростанню попиту на створені нами моделі» в електронній комерції, стрімінгу та фізичному ШІ. Раунд інвестицій підвищив оцінку Decart майже до 4 мільярдів доларів і залучив низку стратегічних інвесторів, таких як Toyota, Adobe та eBay. Всі ці компанії є потенційними клієнтами, зазначає Лейтерсдорф. Nvidia, вже існуючий інвестор, також взяла участь у раунді.
Перевага Oasis 3 полягає у фотореалістичності її моделей та нескінченних можливостях генерації. Це стало можливим завдяки певним інженерним рішенням Decart, реалізованим через інший ключовий продукт компанії: програмне забезпечення DOS (Decart Optimization Stack). Воно дозволяє моделям ефективно працювати на апаратному забезпеченні Nvidia, Amazon і Google, роблячи їхні моделі значно дешевшими в експлуатації порівняно з конкурентами.
«Це побудовано на всій нашій стеку реального часу, який ми оптимізуємо аж до апаратного рівня», — пояснив Лейтерсдорф. «Завдяки такій вертикальній інтеграції ми можемо бути в рази дешевше, ніж будь-хто інший у галузі, для запуску цих моделей».
За словами Лейтерсдорфа, моделі стартапу настільки ефективні, що за весь час свого існування компанія витратила «значно менше» 100 мільйонів доларів.
Oasis 3 генерує фізично точні багатокамерні середовища – з камерами, спрямованими вперед і вбік – для навчання та тестування систем. Замість обмежених демонстрацій та дослідницьких попередніх версій, Decart дозволяє розробникам генерувати сценарії безкінечно, що ідеально підходить для розробників автономних транспортних засобів, які прагнуть випробувати якомога більше граничних випадків.
У порівнянні з іншими моделями, які я пробував, такими як Google Genie 3 або World Labs Marble, Oasis 3 створює найбільш фотореалістичні середовища за одним текстовим запитом, що я бачив. І той факт, що з ними можна взаємодіяти годинами, свідчить про рівень ефективності, якого, можливо, бракує суперникам Decart.
Однак, дозволяючи генерувати світ так довго, модель також значно деградує.
Під час тестування я виявив, що система може стабільно створювати початкову сцену, яка відповідає запиту, але тематична цілісність швидко руйнується під час пересування світом. Я попросив згенерувати вулицю Нью-Йорка вранці, і вона зробила це чудово. Але коли я їхав, оточення все менше нагадувало Нью-Йорк і все більше — стандартну версію будь-якого західного міста. Коли я спробував розвернутися і повернутися до початкової розв’язки, вона зникла, замінена абсолютно новим середовищем. До того ж, елементи керування не надто чутливі, і я часто втрачав контроль над напрямком руху автомобіля (знову ж таки, недолік, спільний з іншими моделями світу, які я тестував). Досвід відчувався менш як послідовна симуляція, а більше як схожий на сон, розрізнений потік свідомості, який швидко стає безглуздим.
Інша проблема, яку я також спостерігав в інших моделях світу, полягає в тому, що автомобіль просто проїжджає крізь інші машини, тобто модель не симулює фізику належним чином у середовищі. Лейтерсдорф називає це «великою дослідницькою проблемою, над якою ми зараз працюємо», пояснюючи це тим, що «даних про безпечне водіння значно більше, ніж про аварії».
Частина складності забезпечення послідовності фізики є фундаментальною для роботи цієї моделі світу. Oasis 3 є авторегресивною, тобто генерує один кадр за раз і дивиться на попередньо згенероване, щоб визначити наступний крок. Це ключова архітектурна особливість багатьох моделей світу, яка також вимагає значних обчислювальних ресурсів.
Щоб підтримувати послідовність, Лейтерсдорф каже, що команда Decart працює над збільшенням обсягу «пам’яті» моделі. «Кожен кадр, який ми генеруємо, — це приблизно 8000 токенів», — зазначив він. «Генерація цього з десятками кадрів на секунду — це сотні тисяч токенів на секунду. Контекстне вікно заповнюється дуже швидко. Ми досліджуємо, як збільшити довжину контексту для зберігання мільйонів додаткових токенів, і як стиснути пам’ять у меншу кількість токенів».
Лейтерсдорф вважає, що проблему послідовності може бути частково вирішено в наступній версії моделі, яка дозволить користувачам генерувати світи на основі відео середовища, а не зображення. Він визнав, що моделі світу як галузь ще перебувають на ранніх стадіях розвитку.
Проте, засновник менше зосереджений на поточних обмеженнях своєї технології, ніж на тому, що станеться, коли розробники отримають до неї доступ.
«Це повертає мене до ранніх днів LLM, коли OpenAI винайшла API для моделей», — сказав він, натякаючи на появу спільноти розробників, яка просунула галузь, знаходячи та створюючи нові випадки використання. «Коли ми знову поговоримо через три місяці, ми скажемо: «Ось 100 розробників, які створили 100 різних застосунків з Oasis, які здивували всіх нас».
Погляд ІТ-Блогу: Технологія Oasis 3 від Decart демонструє майбутнє, де генеративні моделі світу стають ключовим інструментом для розвитку автономних систем. Це свідчить про зміщення акцентів в автомобільній індустрії від суто механічних інновацій до програмних рішень, що формують інтелект транспортних засобів.
Інформація підготовлена на основі матеріалів: techcrunch.com
