Corti випереджає OpenAI: новий застосунок для перетворення мовлення на текст демонструє неперевершену точність у медичній термінології

Сьогодні компанія Corti, що базується в Копенгагені та спеціалізується на медичному штучному інтелекті, запускає Symphony for Speech-to-Text — нове покоління клінічних систем розпізнавання мови, розроблених спеціально для диктування в реальному часі, конвертації мови в текст діалогів та пакетної обробки аудіо. Ці моделі демонструють найвищу точність для цього специфічного застосування, зафіксовану на сьогодні. «Ми прагнемо забезпечити довіру до наших ШІ-асистентів з боку лікарів, медичних працівників та пацієнтів — усієї системи охорони здоров’я», — зазначив Андреас Клеве, співзасновник і генеральний директор Corti, в ексклюзивному відеоінтерв’ю для VentureBeat. Представлені компанією дані продуктивності яскраво ілюструють поточний стан корпоративного ШІ: коли йдеться про високорегульовані, вузькоспеціалізовані галузі, моделі, орієнтовані на конкретну предметну область, можуть перевершити провайдерів базових моделей. У новому дослідженні Corti розкрила, що її нові клінічні моделі розпізнавання мови зменшили коефіцієнт помилок у словах (WER) до 93% порівняно з провідними загальними моделями мови та API при роботі з медичною термінологією. За англійською медичною термінологією, її Symphony for Speech-to-Text досягла надзвичайно низького показника WER у 1,4%. Для порівняння, модель розпізнавання мови від OpenAI показала WER 17,7%, ElevenLabs — 18,1%, Whisper — 17,4%, а Parakeet — 18,9%. Анонс Corti слугує критичним поворотним моментом для розробників у сфері охорони здоров’я. Хоча загальні API, як-от Whisper від OpenAI, достатні для транскрипції широкого спектру даних, вони часто мають труднощі з медичними абревіатурами, складними дозуваннями ліків, скороченнями та шумними середовищами відділень невідкладної допомоги. Symphony for Speech-to-Text покликана вирішити цю проблему, надаючи розробникам високоспеціалізований API промислового рівня, створений з нуля для клінічних робочих процесів.

Ера агентів вимагає бездоганних вхідних даних

Запуск Symphony for Speech-to-Text підкреслює фундаментальну зміну у використанні голосових технологій у сфері охорони здоров’я. Протягом десятиліть медичне розпізнавання мови було в першу чергу спрямоване на створення статичного текстового документа для перегляду лікарями — цифровий еквівалент записника. Однак, оскільки галузь охорони здоров’я стрімко рухається до того, що технологи називають “ерою агентів”, де автономні ШІ-агенти активно допомагають у прийнятті клінічних рішень, навігації в електронних медичних картах (EHR) та наданні підтримки в реальному часі, транскрипт більше не є кінцевим продуктом. Він стає фундаментальним рівнем даних. «Мова завжди була одним із найважливіших вхідних даних у сфері охорони здоров’я, — заявив Клеве. — Те, що змінюється, — це те, що відбувається після фіксації слів. В епоху агентів розпізнавання мови вимагає більше, ніж просто створення транскрипту — нам потрібно надавати системам ШІ точні клінічні факти для обґрунтування. Якщо модель неправильно почує назву ліків, дозування або симптом, кожен наступний крок стає менш надійним. Symphony for Speech-to-Text надає розробникам у сфері охорони здоров’я мовний шар, достатньо точний, щоб він міг ефективно функціонувати в клінічній реальності». Саме тут проявляється наростаюча небезпека високих коефіцієнтів помилок. Якщо загальна модель ШІ “галюцинує” транскрипцію, перетворюючи “гіпертиреоз” на “гіпотиреоз” або неправильно інтерпретуючи критичне дозування ліків, кожен подальший ШІ-агент, що покладається на цю транскрипцію, працюватиме на зіпсованих даних. Архітектура Corti знижує цей ризик, безпосередньо створюючи структурований, клінічно придатний вивід з API, допомагаючи подальшим ШІ-додаткам аналізувати чисті факти, а не неохайний, неформатований текст. Ніде це не є більш очевидним, ніж у тестах на виявлення сутностей Corti. Symphony for Speech-to-Text досягла вражаючого показника виявлення 98,3% форматованих клінічних сутностей — таких як дозування, вимірювання та дати. Натомість, Corti повідомила, що найсильніша загальна базова модель досягла максимуму лише 44,3% виявлення для тих самих сутностей. Для розробників, які створюють інструменти для автоматичної документації за допомогою ШІ, цей розрив у 54% є різницею між інструментом, який заощаджує час лікаря, та інструментом, що становить медичну відповідальність.

Повалення лідерів галузі

Хоча порівняльні тести Corti з сучасними розробниками мовних моделей, як-от OpenAI та ElevenLabs, вражають, компанія також націлюється на традиційних гігантів медичної транскрипції. Роками золотим стандартом для спеціалізованого диктування лікарями був Dragon Medical One. Однак ці застарілі системи історично оптимізувалися виключно для навмисного диктування лікарями, а не як базова інфраструктура для ШІ-асистентів, складних багатосторонніх розмов або інструментів підтримки клінічних рішень у реальному часі. В оцінках реального медичного диктування англійською мовою Corti досягла WER 4,6%, перевершивши показник Dragon 5,7% (відносне покращення на 19%). Крім того, Corti продемонструвала вищий рівень виявлення медичних термінів, ніж Dragon (93,5% проти 92,9%). Надаючи такий рівень точності через API, Corti дозволяє стороннім розробникам, постачальникам EHR та платформам віртуальної медичної допомоги створювати власні інструменти для диктування та прослуховування, що перевершують застарілих гравців галузі. «Ми хочемо, щоб люди створювали додатки на основі наших моделей, — сказав Клеве. — Мета — максимально широко поширити технологію, щоб вона могла бути якомога кориснішою для пацієнтів, їхніх лікарів та фахівців». Для Клеве та його співзасновників ця місія є особистою: мати Клеве сама була медичним працівником, яка постраждала від нападу пацієнта і роками боролася за відновлення. Він прагнув покращити процеси охорони здоров’я як спосіб вшанувати її жертву.

Вирішення головоломки медичних моделей

Вимоги до галузі охорони здоров’я виходять далеко за межі англомовних лікарень, а глобальні системи охорони здоров’я історично були недостатньо забезпечені клінічними NLP-моделями. Перші користувачі вже використовують нові моделі Corti в лінгвістично складних середовищах, доводячи життєздатність технології на складних міжнародних ринках. Швейцарія, наприклад, вимагає надання медичної допомоги різними мовами — часто одночасно в межах однієї медичної установи. Це один із найсуворіших тестів для багатомовних медичних моделей розпізнавання мови у світі. Моделі Symphony від Corti продемонстрували значні покращення продуктивності в цих тестах неанглійською мовою, досягнувши WER 2,4% німецькою (порівняно з 13,0% у наступної найкращої системи) та 3,9% французькою (проти 10,6%). «У клінічній розмові кожне слово має значення — пропущена назва ліків, неправильно почуте дозування або помилково транскрибований симптом може змінити зміст прийому пацієнта, — сказав П’єр Корбоз, керівник відділу рішень та розвитку бізнесу в Voicepoint, швейцарському постачальнику медичних технологій. — Точність Symphony щодо клінічної термінології дає нам основу для впровадження більш надійних можливостей ШІ у клінічні робочі процеси за допомогою нашої платформи Voicepoint Xenon. Коли Corti покращує мовний шар, робочі процеси, які ми створюємо разом, стають чіткішими, безпечнішими та кориснішими для клініцистів у Швейцарії».

Вертикалізація та спеціалізація ШІ приносять результати

Сьогоднішній анонс Symphony for Speech-to-Text є не поодинокою подією; це кульмінація стратегічного наративу, який Corti активно просувала протягом останніх кількох тижнів. Більш широка платформа Symphony — яка забезпечує роботу клінічних та адміністративних додатків для глобальної мережі постачальників EHR та організацій наук про життя — систематично доводить захищеність вертикальних ШІ-лабораторій від горизонтальних технологічних гігантів. Це вже третій великий порівняльний тест, опублікований Corti за останні шість тижнів, що охоплює різні рівні продуктивності ШІ в галузі охорони здоров’я. У квітні компанія повідомила, що її система Symphony for Medical Coding перевершила загальні моделі на 25% за показниками клінічної точності, вирішуючи одне з найскладніших завдань у сфері охорони здоров’я. І минулого тижня Corti оголосила, що її флагманська модель клінічного рівня перевершила OpenAI у HealthBench Professional — власному бенчмарку OpenAI для охорони здоров’я. Разом ці три показники — медичне кодування, клінічне обґрунтування та точність перетворення мови на текст — ілюструють зростаючий консенсус у секторі корпоративних технологій: у регульованих галузях загальні моделі досягають своєї межі. Моделі, що розгортаються в лікарнях, повинні за своєю суттю розуміти складні абревіатури, раптові перебивання, медичні скорочення, специфічну для спеціальності мову та суворі обмеження відповідності. Тренуючись спеціально на цих унікальних граничних випадках, вертикальні ШІ-лабораторії, як-от Corti, створюють потужний захисний бар’єр, який компаніям, що покладаються виключно на виклики API до загальних великих мовних моделей, важко подолати.

Доступність та лінійка продуктів

Розробники явно звертають увагу на розрив у продуктивності. Згідно з даними про динаміку, наданими VentureBeat, Corti спостерігає 30% зростання нових реєстрацій на свою платформу порівняно з попередніми періодами кварталу, що свідчить про те, що розробники та будівельники в галузі охорони здоров’я активно тяжіють до вертикальних, клінічних моделей, а не до загальних API. Corti, яка вже обслуговує понад 100 мільйонів пацієнтів щорічно в основних медичних системах, включаючи Національну службу охорони здоров’я (NHS) Великобританії, позиціонує Symphony for Speech-to-Text як стандартний рушій для наступного покоління програмного забезпечення для охорони здоров’я. Важливо зазначити, що Corti сьогодні не запускає всю платформу Symphony; натомість Symphony for Speech-to-Text функціонує як нова, окрема можливість у межах цієї ширшої екосистеми, доступна через власні API. Symphony for Speech-to-Text загальнодоступна з сьогоднішнього дня. Розробники та архітектори підприємств можуть отримати доступ до моделей через консоль API Corti, а повна технічна документація допоможе інтегрувати клінічний мовний шар у їхні існуючі додатки. У рамках прозорості досліджень Corti також опублікувала повну наукову статтю з детальним описом своєї методології, а також окремий інструмент порівняння, призначений для підтримки прозорої оцінки систем медичного розпізнавання мови в галузі. Оскільки галузь охорони здоров’я продовжує стрімко впроваджувати автоматизацію на основі ШІ, фундаментальний рівень даних ніколи не був таким критичним. Останній запуск Corti є яскравим нагадуванням про те, що в медичній сфері загальний ШІ просто недостатньо хороший. Майбутнє належить спеціалістам.

Прогноз ІТ-Блогу: Очікується, що успіх Corti стимулюватиме подальшу спеціалізацію ШІ-моделей у галузі охорони здоров’я, змушуючи конкурентів зосереджуватися на вузьких доменах, а не на загальних рішеннях. Це призведе до появи нових спеціалізованих API для конкретних клінічних завдань, підвищуючи точність та ефективність медичних ШІ-додатків.

Джерело новини: venturebeat.com

Ера агентів вимагає бездоганних вхідних даних

Повалення лідерів галузі

Вирішення головоломки медичних моделей

Вертикалізація та спеціалізація ШІ приносять результати

Доступність та лінійка продуктів

Залишити відповідьСкасувати відповідь