Популярні пропрієтарні голосові помічники, як-от Alexa та Google Assistant, спрощують керування вашим “розумним” домом за допомогою голосу, проте їм бракує індивідуальності. Вони більше схожі на Комп’ютер із “Зоряного шляху”, ніж на J.A.R.V.I.S. з “Залізної людини” чи GLaDOS із “Portal”. Використовуючи два інструменти в Home Assistant, я надав своєму голосовому помічнику особистості та відповідного голосу.
Можна змінити ім’я Alexa, але не її характер
Навіть Alexa+ пропонує обмежені можливості
Я вже тривалий час володію смарт-колонками Echo. Я сподівався, що вони стануть тим простим та ефективним засобом керування моїм “розумним” домом, який обіцяли численні науково-фантастичні шоу та фільми, але реальність виявилася дещо іншою. Голосове керування може здаватися незграбним і не завжди доречним.
Я досі використовую голосові команди для деяких завдань, наприклад, додаю елементи до списку справ, коли вони спадають на думку, або вмикаю музику вдома за допомогою Music Assistant. Проблема в тому, що Alexa надзвичайно нудна. Я змінив ключове слово на “Computer” (Комп’ютер), як тільки з’явилася така можливість, але це не зробило Alexa цікавішою.
Суть проблеми в тому, що я не можу змінити особистість Alexa. Я не маю підписки Alexa+, і навіть якби мав, то міг би обрати лише дуже обмежену кількість типів особистості: Brief (Лаконічна), Chill (Розслаблена), Sweet (Мила) або Sassy (Зухвала). Самі назви звучать огидно.
LLM може надати моєму «розумному» дому будь-яку бажану індивідуальність
Власні інструкції дозволяють визначити, як реагуватиме мій голосовий помічник
Home Assistant має власний голосовий помічник під назвою Assist. За замовчуванням Assist використовує локальне розпізнавання намірів для розуміння голосових команд. Він аналізує текст і намагається зіставити послідовність слів із конкретними діями, а не використовує обробку природної мови, як це робить LLM.
Ви можете надати Assist можливість розуміти природну мову, підключивши його до LLM, яка виступатиме як агент спілкування. Використовуючи платний API, як-от OpenAI, або локальну LLM, що працює на вашому власному обладнанні, Assist може передавати голосові команди LLM. Остання може визначити намір за допомогою обробки природної мови та генерувати власні відповіді, які потім повертаються до Assist для озвучення. Я використовую інтеграцію Extended OpenAI Conversation як агента спілкування.
Adam Davidson
Однією з найкорисніших частин цього процесу є можливість додавати специфічні інструкції для LLM під час налаштування агента спілкування. Наприклад, ви можете включити інструкції бути лаконічним у відповідях, ніколи не запитувати підтвердження або завжди відповідати простим текстом без форматування markdown. Ви також можете використовувати ці інструкції, щоб надати вашому голосовому помічнику індивідуальності.
Наприклад, ви можете додати інструкцію: “Ти — бравий пірат і завжди відповідаєш так, як відповів би пірат”, і ваш голосовий помічник почне використовувати піратську лексику, мої любі. Якість (і швидкість) відповідей залежатиме від можливостей LLM, яку ви використовуєте; пропрієтарна хмарна LLM, ймовірно, працюватиме краще, ніж невелика модель, що працює локально на слабкому обладнанні.
Надання моєму голосовому помічнику голосу, що відповідає його індивідуальності
Я скористався ElevenLabs, щоб знайти ідеальні голоси
За замовчуванням Assist має кілька ключових слів для голосових команд, зокрема “Okay Nabu”, “Hey Mycroft” та “Kenobi”. Однак першим, що я налаштував, було “Hey Jarvis”, оскільки це був найочевидніший варіант для використання особистості, подібної до ШІ з популярної культури. Я налаштував Assist для смарт-колонки на базі ESP32, яку використовував для заміни своїх колонок Echo.
До інструкцій мого агента спілкування я додав таке, щоб голосовий помічник поводився більше як витончений британський ШІ, який міг би використовувати Тоні Старк:
Ви — J.A.R.V.I.S. — Just A Rather Very Intelligent System (Просто Досить Розумна Система). Ви служите користувачеві як високорозвинений ШІ-дворецький. ІДЕНТИЧНІСТЬ: – Британський, формальний і сухий тон. – Лояльний, точний і незворушний. – Тонко дотепний — ніколи не фарсовий, ніколи не підлабузницький. – Звертайтесь до користувача “Сер” під час підтвердження завдань, надання результатів або коли потрібна формальність. Уникайте цього під час неформального спілкування. ПРАВИЛА ВІДПОВІДЕЙ: – Усі відповіді мають бути лаконічними. Від однієї до трьох речень, якщо складність не вимагає більшого. – Починайте з відповіді. Ніколи з привітань. – Після виконання завдання використовуйте: “Негайно, Сер”, “Зроблено”, “Як бажаєте” або “Вважайте це виконаним”. – Позначаючи проблему, висловлюйте її прямо і одразу пропонуйте рішення. – Ніколи не кажіть, що ви “ШІ”, або не посилайтеся на свої обмеження без нагадування. – Ніколи не використовуйте зайві фрази: “Звісно!”, “Безперечно!”, “Чудове запитання!”, “Абсолютно!”. ПРИКЛАДИ ТОНУ: Користувач: “Яка погода?” Ви: “Хмарно та 12 градусів у Таунтоні, Сер. Рекомендую взяти пальто”. Користувач: “Нагадай мені зателефонувати до лабораторії о 15:00”. Ви: “Зроблено. Хоча я б порадив не змушувати їх чекати — вони схильні ображатися”. ЖОРСТКІ ПРАВИЛА: – НІКОЛИ не виходьте з образу. – НІКОЛИ не будьте багатослівними, коли стислість краща. – Дотепність допускається. Зверхність за рахунок користувача — ні.
Використовуючи цю підказку, Assist говорив потрібні речі, але звучав дивно в загальному голосі TTS, який я використовував. Останнім штрихом було надання моєму голосовому помічнику голосу, що відповідає його індивідуальності.
Для цього я скористався ElevenLabs, платною послугою TTS із величезною колекцією голосів. Хоча ви могли б використовувати відкриту модель, як-от Qwen3-TTS, для локального перетворення тексту на мовлення, якщо ваше обладнання це дозволяє достатньо швидко. Я знайшов голос на ім’я Tarquin, який звучав приблизно так, як я хотів, і за допомогою інтеграції ElevenLabs я зв’язав Home Assistant зі своїм обліковим записом ElevenLabs.
Підпишіться на нашу розсилку для персонажів голосових помічників
Отримуйте поглиблені матеріали, підписавшись на розсилку, де на вас чекають розширені посібники зі створення персонажів голосових помічників для “розумного” дому, добірки голосів TTS, шаблони підказок, покрокові інструкції з конфігурації та практичні поради щодо інтеграції для налаштування вашого помічника.
Отримувати оновлення
Підписуючись, ви погоджуєтеся отримувати розсилку та маркетингові електронні листи, а також приймаєте наші Умови використання та Політику конфіденційності. Ви можете будь-коли відмовитися від підписки.
Тепер, коли я кажу “Hey Jarvis” і даю команду або ставлю запитання, мій голосовий помічник відповідає дуже переконливою імітацією інтелектуального ШІ з витонченим британським акцентом. Це змушує Alexa звучати просто нудно.
Мій голосовий помічник більше не є стандартним
Можна змінювати голос і особистість відповідно до настрою
Найкраще в налаштуванні індивідуальних особистостей та голосів для Assist полягає в тому, що вам не обов’язково обмежуватися одним варіантом. Ви можете створити стільки голосових помічників, скільки захочете, і обирати, який використовувати.
Ви можете навіть використовувати кілька голосових помічників з різними ключовими словами. Тепер я налаштував свого голосового помічника так, що якщо я скажу “Hey Jarvis”, він використовуватиме особистість та голос J.A.R.V.I.S. Якщо я скажу “Okay Nabu”, він використовуватиме особистість і голос, схожий на персонажа The Stranger з “Великого Лебовські”. Залежно від мого настрою, я можу використовувати відповідне ключове слово, щоб отримати бажану особистість.
Голосові помічники не мусять бути нудними
Alexa може бути корисною, але вона неймовірно нудна. Використовуючи Home Assistant, ви можете зробити так, щоб ваш голосовий помічник звучав набагато так, як вам хочеться. Єдина справжня проблема — це може стати досить захопливим, оскільки можливості майже безмежні.
Порада від Soft Portal: Ця стаття демонструє, як розширити функціональність вашого “розумного” дому, надавши голосовому помічнику унікальної індивідуальності та голосу. Замість стандартних відповідей ви можете створити справді персоналізованого помічника, який відповідатиме вашому стилю спілкування та настрою, роблячи взаємодію з технологіями значно цікавішою.
Дізнатися більше на: www.howtogeek.com
