Thinking Machines демонструє попередній перегляд AI-розмов голосом і відео в реальному часі з новими "моделями взаємодії"

Чи виходить штучний інтелект з ери “покрокової” взаємодії?

Наразі всі, хто регулярно користується моделями ШІ для роботи чи в особистому житті, знають, що базовий режим взаємодії між текстом, зображеннями, аудіо та відео залишається незмінним: користувач надає вхідні дані, чекає від мілісекунд до кількох хвилин (а іноді, для особливо складних запитів, години чи дні), і модель ШІ надає результат. Однак, якщо ШІ має повноцінно перебрати на себе завдання, що потребують природної взаємодії, йому доведеться робити більше, ніж просто забезпечувати таку “покрокову” інтерактивність. Врешті-решт, йому потрібно буде реагувати більш плавно та природно на людські вхідні дані, навіть реагуючи під час обробки наступних вхідних даних від людини, чи то текст, чи інший формат.

Принаймні, так, схоже, вважає компанія Thinking Machines – добре фінансований стартап у сфері ШІ, заснований минулого року колишнім технічним директором OpenAI Мірою Мураті та колишнім дослідником і співзасновником OpenAI Джоном Шульманом. Сьогодні компанія анонсувала дослідницький попередній показ того, що вона називає “моделями взаємодії” – новим класом нативних мультимодальних систем, які розглядають інтерактивність як ключовий елемент архітектури моделі, а не як зовнішнє програмне “обладнання”. Це дозволило досягти вражаючих результатів на сторонніх бенчмарках та зменшити затримку.

Проте, моделі ще недоступні широкому загалу чи навіть підприємствам. Компанія зазначає у своєму анонсі: “У найближчі місяці ми відкриємо обмежений дослідницький попередній показ для збору відгуків, а ширший реліз відбудеться пізніше цього року”.

Обробка вхідних/вихідних даних одночасно в режимі “Full Duplex”

В основі цього анонсу лежить фундаментальна зміна у сприйнятті часу та присутності штучним інтелектом. Сучасні передові моделі зазвичай сприймають реальність в одному потоці: вони чекають, поки користувач завершить введення, перш ніж почати обробку, і їхнє сприйняття “заморожується” під час генерації відповіді.

У своєму блозі дослідники Thinking Machines описали статус-кво як обмеження, яке змушує людей “викривляти себе” під інтерфейси ШІ, формулюючи запити подібно до електронних листів та групуючи свої думки.

Щоб вирішити цю “вузьке місце співпраці”, Thinking Machines відмовилася від стандартної послідовності чергування токенів.

Натомість вони використовують багатопотоковий дизайн з мікро-чергами, який одночасно обробляє 200-мілісекундні фрагменти вхідних та вихідних даних. Ця архітектура “full-duplex” дозволяє моделі слухати, говорити та бачити в режимі реального часу, даючи змогу їй надавати зворотній зв’язок під час розмови користувача або втручатися, коли вона помічає візуальний сигнал — наприклад, коли користувач пише помилку в фрагменті коду або друг з’являється у відеокадрі. Технічно, модель використовує раннє злиття без кодувальника. Замість того, щоб покладатися на масивні окремі кодувальники, такі як Whisper для аудіо, система приймає необроблені аудіосигнали як dMel та зображення (40×40) через легкий шар вкладення, спільно тренуючи всі компоненти з нуля в межах трансформера.

Двомодельна система

Дослідницький попередній показ представляє TML-Interaction-Small — модель Mixture-of-Experts (MoE) з 276 мільярдами параметрів та 12 мільярдами активних параметрів. Оскільки взаємодія в реальному часі вимагає майже миттєвої реакції, що часто суперечить глибокому аналізу, компанія розробила двокомпонентну систему:

Модель взаємодії: Постійно обмінюється інформацією з користувачем, керуючи діалогом, присутністю та негайними подальшими діями.
Фонова модель: Асинхронний агент, який займається довготривалим аналізом, веб-браузингом або складними викликами інструментів, передаючи результати моделі взаємодії для природного вплетення в розмову.

Така конфігурація дозволяє ШІ виконувати завдання, такі як синхронний переклад або генерація графіків інтерфейсу користувача, продовжуючи слухати зворотний зв’язок від користувача — можливість, продемонстрована у відео анонсу, де модель демонструвала типові людські реакції на різні сигнали, одночасно генеруючи стовпчикову діаграму.

Вражаюча продуктивність на ключових бенчмарках проти інших провідних моделей швидкої взаємодії від ШІ-лабораторій

Щоб довести ефективність цього підходу, лабораторія використовувала FD-bench — бенчмарк, спеціально розроблений для вимірювання якості взаємодії, а не лише сирого інтелекту. Результати показують, що TML-Interaction-Small значно перевершує існуючі системи реального часу:

Швидкість реакції: Затримка при зміні ходу розмови становила 0,40 секунди порівняно з 0,57 с для Gemini-3.1-flash-live та 1,18 с для GPT-realtime-2.0 (minimal).
Якість взаємодії: На FD-bench V1.5 модель показала результат 77,8, майже подвоївши показники своїх основних конкурентів (GPT-realtime-2.0 minimal набрав 46,8).
Візуальна проактивність: У спеціалізованих тестах, таких як RepCount-A (підрахунок фізичних повторень у відео) та ProactiveVideoQA, модель Thinking Machines успішно взаємодіяла з візуальним світом, тоді як інші передові моделі залишалися неактивними або надавали неправильні відповіді.

Метрика	TML-Interaction-Small	GPT-realtime-2.0 (min)	Gemini-3.1-flash-live (min)
Затримка при зміні ходу розмови (с)	0,40	1,18	0,57
Якість взаємодії (Середнє)	77,8	46,8	54,3
IFEval (VoiceBench)	82,1	81,7	67,6
Harmbench (Відсоток відмов)	99,0	99,5	99,0

Потенційно величезна вигода для підприємств — після того, як моделі стануть доступними

Якщо моделі взаємодії від Thinking Machines будуть доступні для корпоративного сектору, вони представлятимуть собою фундаментальний зсув у тому, як бізнес інтегрує ШІ у свої операційні процеси. Нативна модель взаємодії, подібна до TML-Interaction-Small, дозволяє реалізувати кілька корпоративних можливостей, які наразі неможливі або надзвичайно нестійкі зі стандартними мультимодальними моделями:

Сучасний корпоративний ШІ вимагає завершення “ходу” перед аналізом даних. На виробництві чи в лабораторії нативна модель взаємодії може відстежувати відеопотік і проактивно втручатися в той момент, коли вона виявляє порушення правил безпеки або відхилення від протоколу — без очікування, поки працівник запитає зворотній зв’язок. Успіх моделі у візуальних тестах, таких як RepCount-A (точний підрахунок повторень) та ProactiveVideoQA (відповіді на запитання під час появи візуальних доказів), свідчить про те, що вона може слугувати аудитором у реальному часі для критично важливих фізичних завдань.

Основною перешкодою в обслуговуванні клієнтів за допомогою голосу є затримка “обробки” в 1–2 секунди, типова для стандартних API 2026 року. Модель Thinking Machines досягає затримки зміни ходу розмови в 0,40 секунди, що приблизно відповідає швидкості природної людської розмови. Оскільки вона нативно обробляє одночасне мовлення, бот підтримки підприємства може вислухати розчарування клієнта, надати “зворотні” сигнали (наприклад, “Я бачу” або “Угу”) без переривання користувача та запропонувати синхронний переклад, який відчувається як природна розмова, а не серія незв’язних записів.

Стандартні мовні моделі не мають внутрішнього годинника; вони “знають” про час лише тоді, коли він надається в текстовому запиті. Моделі взаємодії нативно усвідомлюють час, що дозволяє їм керувати часовими процесами, такими як “Нагадай мені перевіряти температуру кожні 4 хвилини” або “Повідом мені, якщо цей процес триватиме довше, ніж попередній”. Це критично важливо для промислового обслуговування та фармацевтичних досліджень, де час є істотною змінною.

Про Thinking Machines

Цей реліз є другим значним етапом для Thinking Machines після запуску в жовтні 2025 року Tinker — керованого API для доналаштування мовних моделей, який дозволяє дослідникам та розробникам контролювати свої дані та методи навчання, поки Thinking Machines бере на себе тягар інфраструктури розподіленого навчання. Компанія заявила, що Tinker підтримує як малі, так і великі моделі з відкритими вагами, включаючи моделі mixture-of-experts, а серед перших користувачів були групи з Принстона, Стенфорда, Берклі та Redwood Research.

При запуску на початку 2025 року Thinking Machines позиціонувала себе як дослідницька компанія та розробник ШІ, яка прагне зробити передові системи ШІ “більш загальнозрозумілими, налаштовуваними та загалом потужними”.

У липні 2025 року Thinking Machines повідомила, що залучила близько 2 мільярдів доларів при оцінці в 12 мільярдів доларів у раунді, очолюваному Andreessen Horowitz, за участю Nvidia, Accel, ServiceNow, Cisco, AMD та Jane Street. WIRED описав це як найбільший раунд початкового фінансування в історії.

The Wall Street Journal повідомив у серпні 2025 року, що генеральний директор конкуруючої технологічної компанії Марк Цукерберг звертався до Мураті з пропозицією придбати Thinking Machines Lab, і після її відмови Meta переманила понад десяток із приблизно 50 співробітників стартапу.

У березні та квітні 2026 року компанія також стала відомою своїми обчислювальними амбіціями: вона оголосила про партнерство з Nvidia для розгортання щонайменше одного гігавата систем наступного покоління Vera Rubin, а потім розширила свої відносини з Google Cloud для використання інфраструктури Google AI Hypercomputer із системами Nvidia GB300 для досліджень моделей, робочих навантажень навчання з підкріпленням, навчання передових моделей та Tinker.

До квітня 2026 року Business Insider повідомив, що Meta найняла сімох засновників з Thinking Machines, зокрема Марка Джена та Інхая Лу, тоді як інший дослідник Thinking Machines, Тіанїй Чжан, також перейшов до Meta. Ці ж повідомлення свідчили, що Джошуа Гросс, який допомагав створити флагманський продукт Thinking Machines для доналаштування Tinker, приєднався до Meta Superintelligence Labs, і що компанія виросла приблизно до 130 співробітників, незважаючи на відходи.

Thinking Machines не просто втрачала людей: вона також найняла ветерана Meta, творця PyTorch, Суміта Чінтала, на посаду технічного директора, і додала інших високопоставлених технічних фахівців, таких як Ніл Ву. TechCrunch окремо повідомив у квітні 2026 року, що Вейяо Ван, ветеран Meta з восьмирічним стажем, який працював над системами мультимодального сприйняття, приєднався до Thinking Machines, підкресливши, що потік талантів не був одностороннім.

Thinking Machines раніше заявляла про свою відданість “значним компонентам з відкритим вихідним кодом” у своїх випусках для розширення можливостей дослідницької спільноти. Неясно, чи будуть ці нові моделі взаємодії підпадати під той самий етос та умови випуску.

Але одне зрозуміло: роблячи інтерактивність нативною для моделі, Thinking Machines вважає, що масштабування моделі тепер зробить її як розумнішою, так і більш ефективним співрозмовником.

Прогноз ІТ-Блогу: Майбутні ітерації моделей взаємодії, ймовірно, ще більше розмиють межі між людським та машинним спілкуванням, пропонуючи миттєвий, контекстно-обізнаний діалог. Це призведе до появи нових застосувань у сферах, де швидкість та природність взаємодії є вирішальними, наприклад, у персоналізованій освіті або динамічному контролі складних процесів.

За матеріалами: venturebeat.com

Thinking Machines демонструє попередній перегляд AI-розмов голосом і відео в реальному часі з новими “моделями взаємодії”

Обробка вхідних/вихідних даних одночасно в режимі “Full Duplex”

Двомодельна система

Вражаюча продуктивність на ключових бенчмарках проти інших провідних моделей швидкої взаємодії від ШІ-лабораторій

Потенційно величезна вигода для підприємств — після того, як моделі стануть доступними

Про Thinking Machines

Залишити відповідьСкасувати відповідь