
Стартап Decart представив Oasis 3 – свою новітню розробку у сфері інтерактивних моделей світу, що здатна генерувати фотореалістичні дорожні середовища в реальному часі. Цей інструмент уже доступний для користувачів через API.
Oasis 3: революція у моделюванні фізичних середовищ
Компанія Decart робить ставку на розробників, пропонуючи доступ до свого “світу моделей” (world models) з першого дня. Це стратегія, схожа на ту, яку застосувала OpenAI з мовними моделями, з метою побудови потужної екосистеми навколо Oasis 3. За словами Діна Лейтерсдорфа, співзасновника та CEO Decart, Oasis 3 стане першою дійсно програмованою моделлю світу, на базі якої зможе розвиватися ціла спільнота розробників.
Компанія вже має спільноту з понад 100 000 розробників, які активно використовують її попередню розробку – модель реального часу Lucy, переважно у сферах електронної комерції та стрімінгу. Oasis 3, побудований на основі Lucy, знаменує собою перехід Decart до сфери фізичного штучного інтелекту. Вартість доступу до API становить 0,02 долара США за секунду, а для корпоративних клієнтів ціни визначаються індивідуально, залежно від специфіки використання.
Конкуренція на ринку моделей світу
Ринок моделей світу стає все більш насиченим. Минулого року Google представив Genie 3 у форматі дослідницького прев’ю, World Labs Фей-Фей Лі запустив Marble для комерційних завдань, а стартапи з генерації відео, такі як Luma та Runway, також трансформують свої моделі відео з урахуванням фізики у моделі світу.

Фінансування та технологічна перевага
Випуск Oasis 3 відбувся невдовзі після того, як дворічний стартап Decart залучив 300 мільйонів доларів. Лейтерсдорф пояснює це значним зростанням попиту на моделі компанії у сфері електронної комерції, стрімінгу та фізичного ШІ. Раунд фінансування оцінив Decart майже в 4 мільярди доларів і залучив стратегічних інвесторів, таких як Toyota, Adobe та eBay, які можуть стати потенційними клієнтами. Nvidia, яка вже була інвестором, також взяла участь у раунді.
Ключовою перевагою Oasis 3 є його фотореалізм та безмежні можливості генерації. Це досягається завдяки оптимізованому програмному забезпеченню Decart Optimization Stack (DOS), яке дозволяє моделям ефективно працювати на апаратному забезпеченні Nvidia, Amazon та Google. Така оптимізація робить розгортання моделей Decart значно дешевшим порівняно з конкурентами.
«Ми оптимізували наш стек реального часу аж до апаратного рівня», – зазначає Лейтерсдорф. «Наша вертикальна інтеграція дозволяє нам бути на порядок дешевшими за будь-кого в індустрії для запуску цих моделей». За словами Лейтерсдорфа, стартап витратив значно менше 100 мільйонів доларів за весь час свого існування завдяки високій ефективності своїх моделей.
Тестування та обмеження Oasis 3
Oasis 3 генерує фізично точні багатокамерні середовища (з камерами, спрямованими вперед, та з боків) для тренування та тестування систем. На відміну від обмежених демо-версій та дослідницьких прев’ю, Decart дозволяє розробникам безкінечно генерувати сценарії, що ідеально підходить для розробників автономних транспортних засобів, які прагнуть протестувати якомога більше граничних випадків.
Порівняно з іншими моделями, такими як Google Genie 3 чи World Labs Marble, Oasis 3 демонструє найбільш фотореалістичні середовища, згенеровані за одним текстовим запитом. Можливість взаємодіяти з цими середовищами годинами свідчить про рівень ефективності, якого, можливо, бракує конкурентам Decart.
Однак, тривала генерація призводить до суттєвої деградації моделі. У процесі тестування було помічено, що початкова сцена завжди відповідає запиту, але її тематична цілісність швидко втрачається під час руху. Наприклад, при запиті згенерувати вулицю Нью-Йорка вранці, модель створила прекрасну сцену, але згодом вона стала схожою на типове західне міське середовище. Спроба повернутися до початкового перехрестя була невдалою – воно зникало, замінене новим середовищем.
Також спостерігаються проблеми з чутливістю керування та втратою контролю над рухом автомобіля, що є недоліком, спільним для інших протестованих моделей світу. Досвід відчувався радше як роз’єднаний потік свідомості, що швидко втрачав логіку, ніж як цілісна симуляція.
Ще одна поширена проблема – автомобіль може проїжджати крізь інші об’єкти, що свідчить про недосконале моделювання фізики. Лейтерсдорф називає це “великою дослідницькою проблемою, над якою ми зараз працюємо”, пояснюючи це тим, що “даних про безпечне водіння значно більше, ніж про аварійні ситуації”.
Технічні виклики та майбутні перспективи
Складність забезпечення фізичної узгодженості частково пов’язана з авторегресивною природою Oasis 3. Модель генерує кадри послідовно, по одному, і звертається до попередніх для визначення наступного. Це значна обчислювальна вимога.
Для підтримки узгодженості команда Decart працює над збільшенням “пам’яті” моделі. Лейтерсдорф пояснює, що кожен згенерований кадр – це приблизно 8000 токенів. При генерації десятків кадрів на секунду, це сотні тисяч токенів, що швидко заповнює контекстне вікно. Компанія досліджує методи збільшення довжини контексту для зберігання мільйонів токенів та стиснення пам’яті.
Лейтерсдорф вважає, що проблема узгодженості може бути частково вирішена у наступній версії моделі, яка дозволить генерувати світи на основі відео, а не лише зображень. Він визнає, що моделі світу як напрямок все ще перебувають на ранній стадії розвитку.
Засновник стартапу більше зосереджений на майбутньому, коли розробники отримають доступ до технології. Він порівнює це з ранніми днями мовних моделей, коли OpenAI випустила API, що стимулювало розвиток нової спільноти розробників та відкрило нові способи використання. Лейтерсдорф висловлює впевненість, що вже через три місяці можна буде побачити сотні розробників, які створять безліч несподіваних застосунків на базі Oasis.
Думка ІТ-Блогу: Випуск Oasis 3 свідчить про значний прогрес у моделюванні фізичних середовищ, але ключовим викликом залишається забезпечення довготривалої узгодженості та реалістичності. Успіх Decart залежатиме від того, наскільки ефективно спільнота розробників зможе подолати ці обмеження та знайти нові, неочікувані застосування цієї потужної технології.
Оригінал статті: techcrunch.com
