Живые субтитры и транскрипция в Microsoft Teams стали лучше благодаря Microsoft Azure и ИИ-технологиям NVIDIA

Платформа Microsoft Teams помогает студентам и специалистам по всему миру проводить онлайн-встречи с использованием созданных с помощью искусственного интеллекта живых субтитров и транскрипции в реальном времени. Эти функции получили развитие благодаря вычислительным технологиям NVIDIA для обучения ИИ и NVIDIA Triton Inference Server для вывода моделей распознавания речи.

NVIDIA

Teams позволяют общаться и сотрудничать по всему миру почти 250 млн активным пользователям в месяц. Разговоры в Teams получают субтитры и транскрибируются на 28 языках с помощью Microsoft Azure Cognitive Services. Этот процесс вскоре будет запускать критически важный инференс нейронной сети с ресурсоёмкими вычислениями на графических процессорах NVIDIA.

Функция живых субтитров помогает участникам следить за беседой в режиме реального времени, а функции транскрипции помогают участникам позже восстановить перипетии обсуждения или наверстать упущенное, если они отсутствовали. Субтитры в реальном времени могут быть особенно полезны для глухих или слабослышащих посетителей, а также для тех, кто не является носителем языка, используемого на собрании.

Teams использует Cognitive Services для оптимизации моделей распознавания речи с помощью программного обеспечения с открытым исходным кодом NVIDIA Triton для инференса.

Triton позволяет Cognitive Services поддерживать высокотехнологичные языковые модели, обеспечивая высокоточные персонализированные результаты преобразования речи в текст в режиме реального времени с очень низкой задержкой. Внедрение Triton гарантирует, что графические процессоры NVIDIA, на которых выполняются эти модели преобразования речи в текст, используются в полной мере, снижая стоимость и обеспечивая более высокую пропускную способность с использованием меньшего количества вычислительных ресурсов.

Некоторые из основных возможностей NVIDIA Triton, которые позволяют масштабировать функции субтитров и транскрипции Microsoft Teams для большего количества собраний и пользователей, включают:

Потоковый вывод: NVIDIA и Azure Cognitive Services совместно занимались тем, чтобы настроить приложение преобразования речи в текст с помощью новой функции потокового вывода с отслеживанием состояния, которая может отслеживать предыдущий речевой контекст для повышения точности субтитров с учетом задержки.
Динамическое пакетирование: размер пакета — это количество входных выборок, которые нейронная сеть обрабатывает одновременно. Благодаря динамическому пакетированию в Triton отдельные запросы вывода автоматически объединяются в пакет, что позволяет лучше использовать ресурсы графического процессора, не влияя на задержку модели.
Параллельное выполнение модели. Для создания подписей и транскрипции в реальном времени требуется одновременный запуск нескольких моделей глубокого обучения. Triton позволяет разработчикам делать это одновременно на одном графическом процессоре, даже с моделями, использующими разные платформы глубокого обучения.

Источник: