Black Forest Labs вибухає ефективністю: Self-Flow робить тренування мультимодальних ШІ в 2.8 рази швидшим

Для створення зв’язних зображень чи відео генеративні ШІ-моделі дифузійного типу, такі як Stable Diffusion або FLUX, зазвичай покладалися на зовнішніх «вчительських» систем — заморожені енкодери на кшталт CLIP чи DINOv2 — для надання семантичного розуміння, якого вони не могли досягти самостійно. Однак ця залежність мала свою ціну: «вузьке місце», де масштабування моделі більше не призводило до кращих результатів, оскільки зовнішній «вчитель» досягав межі своїх можливостей.

Сьогодні німецький стартап Black Forest Labs (розробник серії ШІ-моделей для зображень FLUX) оголосив про потенційне завершення цієї ери академічного запозичення з випуском Self-Flow — фреймворку самокерованого потокового узгодження, який дозволяє моделям одночасно вивчати репрезентації та генерувати контент.

Інтегрувавши новий механізм подвійного часового планування (Dual-Timestep Scheduling), Black Forest Labs продемонстрував, що єдина модель може досягати передових результатів у сферах зображень, відео та аудіо без будь-якого зовнішнього нагляду.

Технологія: подолання «семантичного розриву»

Фундаментальна проблема традиційного генеративного навчання полягає в тому, що це завдання «знешумлення». Моделі показують шум і просять знайти зображення; вона має дуже мало стимулів розуміти, що це за зображення, лише як воно виглядає. Щоб це виправити, дослідники раніше «узгоджували» генеративні ознаки з зовнішніми дискримінативними моделями. Однак Black Forest Labs стверджує, що це принципово помилково: ці зовнішні моделі часто працюють з неузгодженими цілями та не можуть узагальнювати між різними модальностями, такими як аудіо чи робототехніка.

Нова техніка Labs, Self-Flow, впроваджує «інформаційну асиметрію» для вирішення цієї проблеми. Використовуючи техніку подвійного часового планування (Dual-Timestep Scheduling), система застосовує різні рівні шуму до різних частин вхідних даних. «Учень» отримує сильно пошкоджену версію даних, тоді як «вчитель» — версію моделі, що експоненційно рухається в середньому (EMA) — бачить «чистішу» версію тих самих даних. Потім «учень» отримує завдання не просто генерувати кінцевий результат, а передбачати, що бачить його «чистіший» двійник. Це процес самодистиляції, де «вчитель» знаходиться на 20-му шарі, а «учень» — на 8-му. Цей підхід «подвійного проходу» змушує модель розвивати глибоке, внутрішнє семантичне розуміння, фактично навчаючи себе бачити, поки вчиться створювати.

Продукти та впровадження: швидше, чіткіше та мультимодально

Практичні результати цього зсуву вражають. Згідно з науковою статтею, Self-Flow збігається приблизно в 2,8 рази швидше, ніж метод REpresentation Alignment (REPA) — поточний галузевий стандарт для узгодження ознак. Можливо, ще важливіше, він не плато; зі збільшенням обчислювальних потужностей та параметрів Self-Flow продовжує покращуватися, тоді як старіші методи показують зменшення віддачі.

Підвищення ефективності навчання найкраще зрозуміти через призму необроблених обчислювальних кроків: тоді як стандартне «звичайне» навчання традиційно потребує 7 мільйонів кроків для досягнення базового рівня продуктивності, REPA скоротило цей шлях до 400 000 кроків, що становить прискорення в 17,5 разів. Фреймворк Self-Flow від Black Forest Labs просуває цю межу ще далі, працюючи в 2,8 рази швидше, ніж REPA, щоб досягти тієї ж віхи продуктивності приблизно за 143 000 кроків. Сукупно ця еволюція означає майже 50-кратне скорочення загальної кількості кроків навчання, необхідних для досягнення високоякісних результатів, ефективно стискаючи те, що колись було масивною вимогою до ресурсів, у значно більш доступний і оптимізований процес.

Black Forest Labs продемонстрував ці переваги за допомогою мультимодальної моделі з 4 мільярдами параметрів. Навчена на величезному наборі даних із 200 мільйонів зображень, 6 мільйонів відео та 2 мільйонів аудіо-відео пар, модель продемонструвала значні стрибки в трьох ключових сферах:

Типографіка та рендеринг тексту: Одним із найпостійніших «ознак» ШІ-зображень був спотворений текст. Self-Flow значно перевершує звичайне потокове узгодження у відтворенні складних, розбірливих вивісок та написів, наприклад, неонової вивіски з правильно написаним «FLUX is multimodal».
Часова узгодженість: У генерації відео Self-Flow усуває багато «галюцинаторних» артефактів, поширених у сучасних моделях, таких як кінцівки, що спонтанно зникають під час руху.
Спільний синтез відео-аудіо: Оскільки модель вивчає репрезентації нативно, вона може генерувати синхронізоване відео та аудіо з одного запиту, завдання, де зовнішні «запозичені» репрезентації часто зазнають невдачі, оскільки енкодер зображень не розуміє звук.

З точки зору кількісних показників, Self-Flow досяг кращих результатів порівняно з конкурентними базовими моделями. За показником Image FID модель показала 3,61 порівняно з 3,92 у REPA. Для відео (FVD) вона досягла 47,81 порівняно з 49,59 у REPA, а в аудіо (FAD) її показник становив 145,65 проти 148,87 у базової моделі.

Від пікселів до планування: шлях до світових моделей

Оголошення завершується поглядом у майбутнє світових моделей — ШІ, який не просто створює гарні картинки, а розуміє базову фізику та логіку сцени для планування та робототехніки. Шляхом доналаштування версії Self-Flow з 675 мільйонами параметрів на наборі даних робототехніки RT-1, дослідники досягли значно вищих показників успіху в складних, багатоетапних завданнях у симуляторі SIMPLER. Тоді як звичайне потокове узгодження боролося зі складними завданнями «Відкрити та Покласти» (Open and Place), часто зазнаючи повної невдачі, модель Self-Flow підтримувала стабільний рівень успіху, що свідчить про те, що її внутрішні репрезентації достатньо надійні для візуального міркування в реальному світі.

Деталі реалізації та інженерії

Для дослідників, які бажають перевірити ці твердження, Black Forest Labs випустив набір для інференсу на GitHub, спеціально призначений для генерації зображень ImageNet 256×256. Проект, написаний переважно на Python, надає архітектуру моделі SelfFlowPerTokenDiT на основі SiT-XL/2. Інженери можуть використовувати наданий скрипт sample.py для генерації 50 000 зображень для стандартної оцінки FID. Репозиторій підкреслює, що ключовою архітектурною модифікацією в цій реалізації є попарне часове кондиціонування токенів, яке дозволяє кожному токену в послідовності кондиціонуватися на його конкретному часовому кроці зашумлення. Під час навчання модель використовувала змішану точність BFloat16 та оптимізатор AdamW з обрізанням градієнта для підтримки стабільності.

Ліцензування та доступність

Black Forest Labs надали наукову статтю та офіційний код для інференсу через GitHub та свій дослідницький портал. Хоча це наразі є попереднім дослідженням, досвід компанії з сімейством моделей FLUX свідчить про те, що ці інновації, ймовірно, знайдуть своє відображення в їхньому комерційному API та пропозиціях з відкритими вагами в найближчому майбутньому. Для розробників перехід від зовнішніх енкодерів є величезним виграшем з точки зору ефективності. Це усуває необхідність керувати окремими, важкими моделями, такими як DINOv2, під час навчання, спрощуючи стек та дозволяючи більш спеціалізоване, доменно-орієнтоване навчання, яке не залежить від чийогось «замороженого» розуміння світу.

Ключові висновки для технічних керівників підприємств та користувачів

Для підприємств поява Self-Flow означає значний зсув у аналізі витрат та вигод розробки пропрієтарного ШІ. Хоча безпосередніми бенефіціарами є організації, що тренують великомасштабні моделі з нуля, дослідження демонструє, що технологія однаково потужна для високороздільної доналаштування. Оскільки метод збігається майже втричі швидше, ніж поточні стандарти, компанії можуть досягти передових результатів із часткою традиційного бюджету обчислювальних потужностей. Ця ефективність робить його життєздатним для підприємств, щоб вийти за рамки загальних готових рішень і розробляти спеціалізовані моделі, які глибоко узгоджені з їхніми специфічними доменами даних, чи то нішева медична візуалізація, чи пропрієтарні дані промислових датчиків.

Практичні застосування цієї технології поширюються на високоризиковані промислові сектори, зокрема робототехніку та автономні системи. Використовуючи здатність фреймворку вивчати «світові моделі», підприємства у виробництві та логістиці можуть розробляти моделі «зір-мова-дія» (vision-language-action, VLA), які мають краще розуміння фізичного простору та послідовних міркувань. У симуляційних тестах Self-Flow дозволив робототехнічним контролерам успішно виконувати складні, багатооб’єктні завдання — такі як відкриття шухляди для розміщення предмета всередині — де традиційні генеративні моделі зазнавали невдачі. Це свідчить про те, що технологія є фундаментальним інструментом для будь-якого підприємства, яке прагне подолати розрив між генерацією цифрового контенту та фізичною автоматизацією реального світу.

Окрім приросту продуктивності, Self-Flow пропонує підприємствам стратегічну перевагу, спрощуючи базову ШІ-інфраструктуру. Більшість сучасних генеративних систем — це «Франкенштейн»-моделі, які вимагають складних зовнішніх семантичних енкодерів, часто керованих та ліцензованих третіми сторонами. Об’єднуючи репрезентацію та генерацію в єдину архітектуру, Self-Flow дозволяє підприємствам усунути ці зовнішні залежності, зменшуючи технічний борг та усуваючи «вузькі місця», пов’язані з масштабуванням сторонніх «вчительських» систем. Ця самодостатня природа гарантує, що зі зростанням обчислювальних потужностей та даних підприємства продуктивність моделі буде масштабуватися синхронно, забезпечуючи чіткіший ROI для довгострокових інвестицій у ШІ.

Прогноз ІТ-Блогу: Технологія Self-Flow, що дозволяє моделям вчитися репрезентації та генерації одночасно, має потенціал суттєво знизити вимоги до обчислювальних ресурсів та прискорити розробку мультимодальних ШІ. Це може призвести до появи потужніших та більш доступних інструментів для створення контенту та робототехніки, що зміцнить позиції компаній, які інвестують у власні, незалежні ШІ-рішення.

Джерело новини: venturebeat.com