Співзасновники Goldman та Meta створюють голосовий ШІ для недооцінених ринків

Співзасновники Goldman та Meta створюють голосовий ШІ для недооцінених ринків 1

Служба підтримки клієнтів та сервіс — одні з найактуальніших напрямків у сфері голосового ШІ. Проте створення продукту, який звучить по-людськи та відповідає без помітної затримки, виявляється набагато складнішим у деяких ринках, ніж в інших. І більшість провідних гравців просто не були розроблені з оглядкою на Африку та Близький Схід.

AethexAI: Новий гравець на ринку голосового ШІ

AethexAI, стартап, заснований минулого року для подолання цього розриву, залучив 3 мільйони доларів передзасіючого фінансування під керівництвом 4DX Ventures, за участю Enza Capital, Dorm Room Fund, Mojo Ventures та Stanford GSB 26 Fund. Серед індивідуальних інвесторів — викладачі Стенфорду, керівники телекомунікаційних компаній та дослідники ШІ з Anthropic.

Власні розробки замість готових рішень

Замість використання наявних інструментів оркестрації, таких як Vapi та LiveKit, компанія самостійно створила власну невелику модель та рівень оркестрації. Це дозволяє ефективно працювати з локалізованими діалектами англійської, французької та арабської мов, поширених на цільових ринках. Таке рішення було продиктоване специфічними вимогами роботи в регіоні.

Компанія також запускає свою платформу для підприємств, пропонуючи випробувати свої технології та підписатися на послуги. Додатково надаються API та SDK для розробників, які бажають експериментувати з моделями.

Засновники та мотивація

Стартап заснували Маріама Діалло та Аюолува Одемуйва. CEO Діалло мала досвід роботи в Goldman Sachs, а згодом приєдналася до ModelML (яка отримала підтримку Y Combinator) як спеціаліст з продукту та розвитку. CTO Одемуйва закінчив Калтех, працював у Meta та навчався у Стенфордській бізнес-школі перед тим, як стати співзасновником компанії. Пара прагнула створити щось для ринків, що розвиваються, і активно шукала відповідні можливості.

Виклики автоматизації в регіоні

Бізнеси по всьому світу змагаються у впровадженні інструментів ШІ для автоматизації операційних процесів. Однак, це не завжди виявляється успішним. Наприклад, у Єгипті один кол-центр значно автоматизував свої дзвінки, але згодом відмовився від системи через незадовільні результати, як з’ясували засновники. Кілька центрів підтримки в Африці повідомили, що пошук та наймання інженерів для автоматизації дзвінків за прийнятною ціною є постійним головним болем.

Проблема затримки та джиттера

«Затримка та джиттер (коливання часу передачі пакетів даних), які ми спостерігали в автоматизованих дзвінках у цьому регіоні, були надмірними. Якби ми стали оркестраторами, нам, можливо, довелося б використовувати великі моделі, розміщені за межами регіону, що призвело б до більшої затримки. Ми зрозуміли, що для успіху нам потрібно використовувати дуже маленькі моделі та мінімізувати затримку на кожному кроці», — зазначив Одемуйва щодо рішення створити власні моделі та шар оркестрації.

Розробка компактних моделей ШІ

AI-лабораторії, які розгортають свої найновіші моделі, зазвичай витрачають мільйони на їхнє навчання та збір даних. AethexAI знайшла рішення для обох завдань. Замість гонитви за найбільшими можливими моделями, компанія вирішила, що невеликі моделі достатні для вирішення проблеми затримки при збереженні точності. Вони розробили власну серію Kora з параметрами від 300 мільйонів до 1.7 мільярда. Це значно менше, ніж у великих мовних моделей (LLM), і саме в цьому полягає їхня перевага.

Збір та анотація даних

Для навчання цих моделей стартап використовував анонімізовані записи від партнера-кол-центру. Також було відправлено жорсткі диски до радіостанцій по всій Африці для збору додаткових аудіоданих. Для зниження витрат було створено мережу студентів з університетів для анотації даних та вимови місцевих імен. В результаті, за словами стартапу, зараз обробляється понад 17 000 дзвінків на день.

Підхід до співпраці з клієнтами

З комерційного боку компанія ретельно супроводжує клієнтів, які тільки починають знайомство з голосовим ШІ. Пропонуються демонстрації на місцях та семінари, щоб допомогти їм визначити найкращі сценарії використання для автоматизації.

«Ми завжди говоримо клієнтам, що зараз ми не можемо бути всім для всіх. Ми — невелика компанія. Коли ми починаємо розмову з компанією, ми просимо їх обрати один сценарій використання, який для них є найважливішим для старту», — сказала Діалло.

Специфікація галузей та партнерств

Стартап відкритий до співпраці з усіма галузями. Однак, на даний момент значна частина сценаріїв використання включає дзвінки для стягнення боргів, активації клієнтів або KYC — верифікації особи клієнта, стандартного процесу перевірки ідентифікаційних даних, який використовують банки та телекомунікаційні компанії. Компанія наймає інженерів, що працюють безпосередньо з клієнтами, на контрактній основі для обслуговування місцевих ринків. Також будуються партнерські відносини з телекомунікаційними провайдерами для обробки телефонії для голосових ШІ-дзвінків. Рішення за принципом “включи та працюй” (plug-and-play), за їхніми словами, тут просто не працюватимуть.

Відмінності ринку Африки та Близького Сходу

Волтер Бадду, співзасновник та керуючий партнер 4DX Ventures, стверджує, що ринок Африки та Близького Сходу принципово відрізняється від ринків, для яких були створені більшість компаній, що займаються голосовим ШІ.

«Підприємства в Африці та на Близькому Сході обробляють приблизно втричі більший обсяг дзвінків, ніж їхні західні колеги, оскільки голос залишається домінуючим каналом для взаємодії з клієнтами», — зазначив він. «Існуючі системи були розроблені для західних ринків, що характеризуються високопродуктивною інфраструктурою GPU, стандартною англійською та європейською мовою, а також корпоративними робочими процесами, поширеними в США та Європі. Це створює реальні прогалини, коли підприємствам потрібні системи, що обробляють діалекти, кодову комутацію (змішування мов в одному реченні) та неформальні мовні патерни, і які працюють у межах їхньої наявної телефонічної інфраструктури та реальних цінових порогів».

Іншими словами, хоча компанії, такі як ElevenLabs, Deepgram, Sierra та Cognigy, швидко розширюються глобально, ринки, для яких вони були створені, і ринки, на які вони виходять, не завжди збігаються. Стартапи, подібні до AethexAI, роблять ставку на те, що ці прогалини — моделі, спеціалізовані на місцевих діалектах, партнерства на місцях, інфраструктура, побудована для регіону — становлять ринкову можливість, яку гіганти не мають ані стимулу, ані архітектури для закриття.

Думка ІТ-Блогу: Новини про AethexAI підкреслюють зростаючу тенденцію до спеціалізації рішень штучного інтелекту під конкретні ринки, а не універсальний підхід. Це відкриває двері для стартапів, які можуть ефективніше задовольняти локалізовані потреби, що раніше ігнорувалися великими гравцями.

Інформація підготовлена на основі матеріалів: techcrunch.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *