Gemini Omni Flash: перетворіть відеовиробництво на діалог з API

Для більшості підприємств створення 90-секундного навчального відео або пояснювального ролика про продукт завжди було складним завданням. Це вимагає ретельного планування, залучення внутрішньої кіногрупи або зовнішнього підрядника, проведення зйомок, монтажу та кількох раундів правок. Зміна одного рядка тексту на екрані через юридичні вимоги призводить до повторення всього процесу. Вартість та тривалі часові рамки – ось чому значна частина внутрішніх відео так і не створюється.

Саме це рівняння Google прагне переписати за допомогою Gemini Omni Flash – першої моделі з нової родини “Omni”, яка зараз поступово стає доступною для розробників та корпоративних клієнтів через API, після свого дебюту для споживачів на конференції I/O 2026. Google позиціонує амбіції сімейства як створення будь-чого “з будь-якого вхідного сигналу”, починаючи з відео. Проте головною інновацією є не просто покращений запит “текст-у-відео”. Це можливість редагувати готовий ролик шляхом діалогу.

Коли модель була запущена у травні, аналітика підприємств від VentureBeat виявила головну проблему: без програмного інтерфейсу Omni був інструментом для споживачів та ентузіастів, а не виробничим рішенням. Цей реліз API змінює ситуацію. Він надає можливості діалогового редагування командам маркетингу та навчання, які створюють найбільше відео в організації.

Пропозиція: п’ятиетапний конвеєр зводиться до однієї розмови

Дотепер багато команд створювали відео за допомогою ШІ складним шляхом, поєднуючи великі мовні моделі для написання сценарію, моделі “текст-у-зображення”, “зображення-у-відео”, окремий інструмент для синхронізації губ та генератор голосу – кожен зі своїм контрактом, тарифікацією та потоком даних.

Корпоративна перевага Omni полягає в уніфікації: одна модель, яка приймає текст, зображення та відео, і видає готовий ролик із синхронізованим аудіо.

Цей фактор простоти є тим, що перш за все повинні враховувати особи, що приймають рішення. Об’єднання кількох спеціалізованих інструментів в одну модель означає меншу кількість постачальників та єдине місце для моніторингу результатів і забезпечення дотримання правил обробки даних. Для організації, яка уникала генеративного відео через те, що поєднання інструментів не вартувало накладних витрат, рівняння змінюється.

Завдяки діалоговому редагуванню кожна інструкція будується на попередній, тому маркетолог може переосвітлити продукт, змінити ракурс або оновити гардероб, не генеруючи все з нуля і не втрачаючи ті частини, які вже працювали. Це різниця між необхідністю повторних зйомок та надсиланням приміток.

Багатомодальні посилання та фізичний рушій для брендових активів

Omni приймає набагато більше, ніж просто текстовий запит. Поряд зі словами, що описують бажане, ви можете надати йому кілька референсних зображень та існуючих відеокліпів, і модель врахує ці деталі в результаті. Надайте їй фотографію конкретного об’єкта, попросіть модель помістити цей об’єкт у сцену, і вона відтворить колір та приблизну форму реального об’єкта, замість того, щоб створювати загальний замінник. Хоча збіг може бути не ідеальним на рівні пікселів, він достатньо близький, щоб бути впізнаваним. Такий контроль, керований посиланнями, робить цю функцію комерційно цікавою: фотографію продукту, логотип бренду або конкретне місце можна додати як інгредієнт, а не описувати в запиті та сподіватися на результат.

Дві з чотирьох ключових переваг, виділених Google, безпосередньо стосуються корпоративної роботи. Перша – це “світова модель” (world model), тобто розуміння системою того, як поводяться фізичні сцени. Додайте до існуючого кадру легкий дощ і калюжі, і вона відтворить відблиски людей та об’єктів у мокрому асфальті – послідовність, що відрізняє реальні кадри від очевидно згенерованого ШІ відео.

Друга – це вставка тексту та логотипів. Вкажіть на сцену з великою кількістю вивісок, і ви зможете переписати ці вивіски іншою мовою або для вибраного бренду, і навіть додати логотип компанії. Результати не завжди ідеальні: під час тестування відстеження вивісок у складних сценах не завжди було точним, а деякий текст залишався оригінальною мовою між кадрами. Для навчальних відео, де потрібні текстові позначки, або рекламних роликів, де потрібно розмістити логотип у сцені, це функція, на яку варто звернути пильну увагу, і нагадування про те, що вихідний матеріал все одно потребує людського перегляду перед публікацією.

API взаємодій та обмеження, які ще існують

Під капотом це працює на новому API взаємодій від Google – станічному інтерфейсі, розробленому для багатоетапних завдань, а не для відкритого чату. Кожен етап передає попереднє відео та його посилання, що дозволяє послідовно накопичувати редагування. Розробники можуть ланцюгувати генерації. Вони можуть створити кліп, змінити кота на пум’яче кошеня, стилізувати відео спочатку в ретро 8-біт, а потім у стилі акварелі, і зберігати кожну версію для подальшого розгалуження.

Обмеження реальні, і їх варто враховувати при плануванні бюджету. Кліпи зараз обмежені 10 секундами, згідно з опублікованою картою моделі. Щоб створити щось довше, потрібно генерувати фрагменти та монтувати їх разом. Можна також редагувати завантажені кадри, якщо вони тривають 10 секунд або менше, і користувач має на них права. Власна карта моделі Google відверто зазначає, що підтримка послідовності між редагуваннями та відтворення точного тексту залишаються відкритими проблемами.

Захисні механізми, водяні знаки та межі, які Google не перетинає

Для керівників з інформаційної безпеки демонстрації мають менше значення, ніж робота з походження даних, яка випускається разом з моделлю. Кожен кліп Omni несе водяний знак SynthID від Google, Google розширює C2PA Content Credentials на свої генеративні інструменти, і запустила API для виявлення контенту, згенерованого ШІ, який маркує медіа, створені як Google, так і іншими постачальниками.

Google також свідомо встановила межу. Модель не зможе створити відео з фотографії людини та аудіозапису, щоб синхронізувати губи – це свідомий крок для обмеження глибоких фейків. Однак вона зможе взяти запис розмови людини та перекласти його на іншу мову, що є корисною функцією для локалізації глобального навчального контенту. Для регульованих підприємств ці обмеження та вбудоване походження даних є перевагами, а не перешкодами.

VB Transform · July 14–15 · Menlo Park · Inference & AI infrastructure

GM отримав 300% стрибок у об’єднаних PR завдяки реархітектурі під агентів. Ось що вони побудували.

Трек інфраструктури на Transform охоплює генерацію відео в реальному часі, стеки машинного міркування та те, що насправді потрібно для масштабування агентів на рівні підприємства.

Дивіться повний порядок денний →

Цифри: дешево, лише 720p, і (попередньо) перше місце

Ціна була оголошена разом з API, і вона є конкурентною. Omni Flash коштує 0,10 долара за секунду згенерованого відео 720p, що робить десятисекундний кліп приблизно за долар. Це відповідає Veo 3.1 Fast за тією ж роздільною здатністю, удвічі дешевше за Veo 3.1 Lite і на чверть дешевше за стандартний Veo 3.1.

За секунду (USD)	Gemini Omni Flash	Veo 3.1 Lite	Veo 3.1 Fast	Veo 3.1
720p	$0.10	$0.05	$0.10	$0.40
1080p	n/a	$0.08	$0.12	$0.40
4K	n/a	n/a	$0.30	$0.60

Однак таблиця також виявляє компроміс. Omni Flash генерує лише 720p. Немає опцій 1080p або 4K, тоді як тарифні плани Veo масштабуються до 4K. Для внутрішнього навчання та більшості соціальних відео 720p є достатнім. Для преміального брендингу, призначеного для великого екрана, це є серйозним обмеженням, і саме тому Veo 3.1 все ще має свою нішу.

Кліпи тривають від 3 до 10 секунд у нативному 720p, у ландшафтному (16:9) або портретному (9:16) форматі. Як вхідні посилання, модель приймає до семи зображень і до трьох відеокліпів тривалістю до трьох секунд. Вона поки що не приймає аудіо як вхідний сигнал, хоча генерує аудіо разом з відео. Вихідний матеріал – стандартний MP4, і кожен кліп постачається з вбудованим водяним знаком SynthID та обліковими даними C2PA.

Щодо якості, ранні сигнали є сильними. В LMArena’s Text-to-Video Arena, рейтингу, де користувачі голосують за результати конкуруючих моделей у форматі “віч-на-віч”, Omni Flash посів перше місце з показником 1527.

Що це означає для бюджетів, і чого ще не вистачає

З реальною ціною, історія ітерацій стає конкретною. Кожне діалогове редагування – це нова генерація, за яку ви платите, тому сесія з інтенсивним редагуванням все одно додає витрат, приблизно долар за кожне десятисекундне проходження у 720p. Те, що змінює стан моделі, – це не вартість редагування, а кількість змарнованих спроб: оскільки контекст зберігається між переходами, ці генерації йдуть на вдосконалення варіанту, який в основному працює, замість того, щоб починати з чистого запиту та сподіватися, що наступна спроба буде успішною.

Omni не самотній у цій сфері. Veo 3.1 залишається виробничим рішенням Google, коли потрібна вища роздільна здатність, а конкуренти від Bytedance, Alibaba та OpenAI також борються за ті ж бюджети. Те, що додає Omni, – це саме функція редагування: можливість розглядати відео як живий документ, а не одноразовий рендер.

Прогноз ІТ-Блогу: Gemini Omni Flash, з його фокусом на діалоговому редагуванні та уніфікації робочих процесів, має потенціал суттєво знизити бар’єр входу для створення відеоконтенту в корпоративному сегменті. Очікується, що протягом наступних 1-2 років ми побачимо швидке впровадження подібних рішень, що призведе до зростання обсягів персоналізованого та ефективного відео для маркетингу, навчання та внутрішньої комунікації.

Подробиці можна знайти на сайті: venturebeat.com