Відмовся від стандартних голосів TTS у Home Assistant: місцеве налаштування оживить твою систему реалістичним звучанням

Довгий час я використовував стандартний голос для перетворення тексту на мову (TTS) для голосових сповіщень у моєму смарт-будинку. Це дозволяло генерувати аудіо без використання стандартного голосу Alexa, але воно все ще залишалося доволі одноманітним. Тепер сповіщення на моїх Echo використовують значно цікавіші голоси — голоси моєї родини та мої власні.

Автор Adam Davidson

Персоналізовані сповіщення: як я перетворив свій дім на справжню родину голосів

Щоденний брифінг – моя улюблена автоматизація

Відмовся від стандартних голосів TTS у Home Assistant: місцеве налаштування оживить твою систему реалістичним звучанням 2

Я активно користуюсь голосовими сповіщеннями. Хоча я рідко використовую свої пристрої Echo для голосових команд, вони надзвичайно корисні для звукових оголошень у домі. Однією з моїх найулюбленіших автоматизацій є ранковий щоденний брифінг. Коли ми вперше заходимо на кухню вранці, відтворюється голосове сповіщення, яке витягує дані з мого календаря та повідомляє нам про заплановані справи на день: позашкільні заняття, обіди в школі, зустрічі, спортивні події тощо.

Інше сповіщення спрацьовує, коли хтось заходить на кухню після того, як вона була порожньою понад 10 хвилин. Голосове оголошення пропонує людині навести лад, поки вона перебуває на кухні.

Усі ці сповіщення використовують стандартний голос TTS. Хоча він і приємніший за стандартні голоси Alexa, він все ще не надто цікавий.

Qwen3-TTS: справжня революція у створенні голосів

Клонування голосу за лічені секунди аудіо

Раніше я використовував програмне забезпечення для синтезу мови ElevenLabs для клонування власного голосу та використання його для сповіщень замість голосу Alexa. Це працювало добре, але були два суттєві недоліки. По-перше, потрібна платна підписка ElevenLabs, а по-друге, мені доводилося завантажувати свій голос для клонування.

Ідея завантажувати голос моєї дружини на сторонній хмарний сервіс мені не подобалася, тому я ніколи не клонував її голос. Коли я дізнався про випуск Qwen3-TTS, я подумав, що це саме те, що мені потрібно.

Qwen3-TTS — це модель генерації мови з відкритим вихідним кодом, яка не тільки генерує мову з тексту, але й може клонувати голоси, використовуючи лише три секунди аудіо. Вона настільки легка, що я зміг запустити найменший варіант 0.6B на MacBook Air M2 з 8 ГБ оперативної пам’яті. Маючи лише 10 секунд аудіо мого голосу та транскрипцію того, що я говорив, модель створила кастомну голосову модель приблизно за 20 секунд.

Ви можете ввести будь-який текст, і, використовуючи вашу клоновану голосову модель, згенерувати аудіофайл цього тексту, озвучений клонованим голосом. Результати вражають. Хоча вони не завжди ідеальні, дивовижно, наскільки точними можуть бути клони голосу з такою малою кількістю вихідного аудіо.

Існують правові та етичні аспекти клонування голосів. Найбезпечніший і найвідповідальніший підхід — це клонувати голос лише за згодою особи та використовувати його виключно для приватних, локальних цілей. Залежно від вашої юрисдикції, можуть існувати також правові обмеження щодо клонування голосу.

Локальний запуск Qwen3-TTS

Все відбувається на моєму міні-ПК

Відмовся від стандартних голосів TTS у Home Assistant: місцеве налаштування оживить твою систему реалістичним звучанням 3

Після того, як я переконався, що це може працювати на моєму MacBook, я захотів знайти спосіб використовувати клоновані голоси в Home Assistant. Генерація голосів на MacBook не була варіантом, оскільки він не завжди увімкнений. Оскільки я запускаю Home Assistant у Proxmox на міні-ПК, найкращим рішенням було запустити Qwen3-TTS у невеликому Linux-контейнері, щоб він був завжди доступний.

Я створив новий LXC-контейнер Debian з кількома ядрами процесора та достатнім обсягом оперативної пам’яті для запуску Qwen3-TTS. Я встановив Python, FFmpeg та пакет Qwen3-TTS, а також додав свої клоновані файли голосів. Я обгорнув усе в FastAPI-додаток, щоб мати можливість надсилати запит з Home Assistant на мій міні-ПК із текстом і клонованою голосовою моделлю, яку я хотів використати, а Qwen3-TTS генерував аудіо на міні-ПК.

Ключовим моментом для моїх цілей стало перетворення аудіо у формат, придатний для моїх колонок Echo. Якщо аудіо матиме неправильний формат, смарт-колонки можуть його не відтворити, тому мені довелося конвертувати його в MP3 зі швидкістю 24 кГц, 48 кбіт/с CBR за допомогою FFmpeg. Команда оболонки в Home Assistant завантажує цей файл до внутрішньої папки та надає до нього доступ через URL за допомогою Home Assistant Cloud для забезпечення віддаленого доступу. Таким чином, Echo може отримати доступ до цього аудіофайлу та відтворити його.

Процес не є миттєвим; генерація аудіо для довгого сповіщення, як-от мій ранковий брифінг, може зайняти досить багато часу. Щоб вирішити цю проблему, я налаштував автоматизацію, яка генерує аудіо для сповіщення вранці, до того, як ми прокинемося. До того часу, коли ми спустимося на кухню та активуємо сповіщення, аудіо вже буде згенероване, тому воно відтворюється одразу.

Отримуйте практичні посібники з локального TTS — підпишіться на розсилку

Підпишіться на нашу розсилку, щоб отримати покрокові інструкції з локального TTS, рекомендації щодо етичного клонування голосу та практичні автоматизації Home Assistant з акцентом на конфіденційність, а також ширше охоплення тем смарт-будинку та приватності. Отримати оновлення Підписуючись, ви погоджуєтесь отримувати листи з розсилки та маркетингові матеріали, а також приймаєте наші Умови використання та Політику конфіденційності. Ви можете відписатися будь-коли.

Щодня автоматизація випадково вибирає або мій голос, або голос моєї дружини. Це означає, що ми ніколи не знаємо, хто саме читатиме ранковий брифінг цього дня.

Локальна обробка означає кращу конфіденційність

Аудіодані не завжди повинні залишати ваш дім

Відмовся від стандартних голосів TTS у Home Assistant: місцеве налаштування оживить твою систему реалістичним звучанням 4

Перевага використання Qwen3-TTS полягає в тому, що клонування голосу та обробка тексту в мову відбуваються локально. Мені не потрібно було завантажувати запис у хмару для клонування голосу, як це було б з ElevenLabs.

У моїй поточній конфігурації аудіо все ще надається за межі мого дому, оскільки колонки Echo вимагають зовнішньої URL-адреси для відтворення аудіо. Це означає, що мені потрібно бути обережним і не включати жодної конфіденційної інформації в аудіосповіщення. Якби я використовував інші колонки, які могли б відтворювати локальні медіа безпосередньо, жодне аудіо ніколи б не покидало мій дім, роблячи процес повністю локальним.

Локальні моделі стають дедалі потужнішими

Коли я вперше спробував клонувати свій голос за допомогою ElevenLabs, я думав про те, щоб зробити це локально, але на моєму обмеженому обладнанні це було неможливо. Qwen3-TTS настільки легка, що я можу запустити її на своєму міні-ПК, і коли я відмовлюся від своїх смарт-колонок Echo на користь чогось більш приватного, я зможу робити все повністю локально, забезпечуючи значно вищий рівень конфіденційності.

Порада від Soft Portal: Ця стаття детально розповідає про інноваційний підхід до персоналізації голосових сповіщень у вашому смарт-будинку за допомогою відкритих технологій. Впровадження Qwen3-TTS дозволяє не тільки використовувати голоси близьких для оголошень, але й забезпечує високий рівень конфіденційності завдяки локальній обробці даних. Це чудовий приклад того, як сучасні IT-рішення можуть покращити повсякденне життя, роблячи його більш зручним та безпечним.

За даними порталу: www.howtogeek.com