
Французька компанія Mistral AI представила новий відкритий (open source) інструмент для генерації мовлення з тексту (text-to-speech, TTS). Цей розробка може бути використана як основа для голосових помічників, так і в корпоративних рішеннях, наприклад, для автоматизації служб підтримки клієнтів. Випуск Voxtral TTS ставить Mistral AI в пряму конкуренцію з такими гігантами, як ElevenLabs, Deepgram та OpenAI.
Voxtral TTS: Багатомовність та Ефективність
Нова модель, названа Voxtral TTS, підтримує дев’ять мов, серед яких англійська, французька, німецька, іспанська, нідерландська, португальська, італійська, гінді та арабська. Це значно розширює можливості її застосування на глобальному ринку.
Мініатюрність та Продуктивність
«Наші клієнти давно запитували про модель для роботи з мовленням. Тому ми створили компактну модель, яка може працювати навіть на смарт-годинниках, смартфонах, ноутбуках чи інших периферійних (edge) пристроях. Її вартість — це лише частка від аналогічних рішень на ринку, але при цьому вона демонструє передові показники продуктивності», — зазначив П’єр Сток, віце-президент з наукових операцій Mistral AI, під час телефонної розмови з TechCrunch.
Висока Точність та Адаптивність
За твердженням Mistral, нова модель здатна адаптувати кастомний голос лише за п’ятисекундним зразком аудіо. Вона може вловлювати та відтворювати тонкі нюанси, такі як акценти, інтонації та особливості мовленнєвого ритму. Модель, побудована на базі Ministral 3B, також вміє легко перемикатися між різними мовами, зберігаючи при цьому унікальні характеристики голосу. Це особливо корисно для таких застосунків, як дубляж або синхронний переклад. Сток підкреслив, що головна мета розробників — зробити так, щоб голос звучав максимально природно, а не роботизовано.
Продуктивність у Реальному Часі
Модель оптимізована для роботи в режимі реального часу. Час до отримання першого аудіофрагменту (Time-to-First-Audio, TTFA), який вимірює, коли модель починає «говорити» після отримання запиту, становить 90 мілісекунд для 10-секундного зразка з 500 символів. Коефіцієнт продуктивності в реальному часі (Real-Time Factor, RTF) становить 6x, що означає можливість генерації 10-секундного аудіо приблизно за 1,6 секунди.
Повний Спектр Голосових Рішень
Раніше цього року Mistral AI представила дві моделі для транскрипції мовлення: одну для пакетної обробки великих обсягів даних, а іншу — для сценаріїв використання в реальному часі з низькою затримкою. Поява нової моделі генерації мовлення свідчить про прагнення компанії запропонувати підприємствам повний набір рішень для роботи з голосом.
«Ми плануємо створити комплексну платформу, яка зможе обробляти мультимодальні потоки даних, включаючи аудіо, текст та зображення, а також генерувати відповідні вихідні дані. Основна перевага такої системи полягає в отриманні значно більше інформації завдяки агентній системі, яка підтримує аудіо як вхідний або вихідний канал», — додав Сток.
Mistral AI робить ставку на те, що відкритий код та можливість кастомізації допоможуть підприємствам обрати їхні голосові моделі замість рішень конкурентів, адже користувачі зможуть налаштувати їх відповідно до власних потреб.
Думка ІТ-Блогу: Випуск Mistral AI багатомовного TTS-моделі з відкритим кодом та акцентом на ефективність і кастомізацію є потужним сигналом для ринку. Це може призвести до зниження вартості та підвищення доступності передових голосових технологій для ширшого кола компаній та розробників.
Дізнатися більше на: techcrunch.com
