Mistral перетворює вилучення документів на повноцінне корпоративне AI-рішення з OCR 4

Mistral AI переосмислює обробку документів з OCR 4, фокусуючись на структурі та суверенітеті

Компанія Mistral AI презентувала OCR 4 – модель, що виводить розпізнавання документів на новий рівень, переходячи від простого вилучення тексту до створення структурованих представлень цілих документів. Це включає в себе визначення обмежувальних рамок, класифікацію блоків контенту та оцінку достовірності для кожного слова. Четверте покоління технології оптичного розпізнавання символів від Mistral за останні 15 місяців з’являється в момент, коли стратегія компанії щодо європейського суверенітету у сфері штучного інтелекту набуває особливої комерційної актуальності.

Модель підтримує 170 мов у 10 мовних групах та працює з форматами PDF, DOC, PPT і OpenDocument. Важливою перевагою є можливість розгортання у вигляді одного контейнера на власній інфраструктурі організації. Це пряма відповідь на потреби підприємств у регульованих галузях, які не можуть надсилати конфіденційні документи через хмарні API, що підпадають під юрисдикцію США.

“Mistral OCR 4 вилучає та структурує контент з широкого спектру документів”, – йдеться в анонсі компанії. “Якщо попередні версії були зосереджені на перетворенні сторінки на чистий текст та таблиці, то OCR 4 надає структуроване представлення документа”.

Модель вже доступна через API Mistral, Document AI у Mistral Studio, Amazon SageMaker та Microsoft Foundry. Підтримка Snowflake Parse Document очікується незабаром. Вартість послуг починається від 4 доларів за 1000 сторінок, зі знижкою до 2 доларів за 1000 сторінок при використанні пакетного API.

OCR 4: документ як семантична карта, а не стіна тексту

Ключова інженерна зміна в OCR 4 полягає в його структурному підході. Замість того, щоб видавати плоский потік витягнутого тексту, як це робили OCR-системи десятиліттями, модель повертає багаторівневе представлення. Кожен блок контенту локалізовано за допомогою обмежувальної рамки, класифіковано за типом (заголовок, таблиця, рівняння, підпис тощо) та оцінено за рівнем достовірності як на рівні сторінки, так і на рівні слова.

Mistral зазначає, що обмежувальні рамки були найбільш затребуваною функцією. Причина проста: без даних про місцезнаходження, наступні системи не можуть відстежити витягнуту інформацію до її першоджерела на конкретній сторінці. Цей пробіл у відстежуваності був постійною перешкодою для компаній, які створюють конвеєри для retrieval-augmented generation (RAG), робочі процеси відповідності нормам або будь-які додатки, де питання “звідки взялася ця цифра?” потребує перевіреної відповіді.

Класифікація блоків вирішує пов’язану проблему. Параграф, позначений як “заголовок”, може сегментувати документ на ієрархічні частини для семантичного пошуку. Блок, позначений як “таблиця”, може бути спрямований до конвеєра обробки структурованих даних, а не до системи узагальнення тексту. Блок, позначений як “підпис”, може ініціювати робочий процес вилучення (redaction) у системі відповідності нормам.

Ці ідеї не є новими самі по собі, але їх інтеграція як першокласних результатів роботи самого OCR-модуля – замість окремого етапу аналізу компоновки – усуває рівень інтеграції, який раніше підприємствам доводилося створювати та підтримувати самостійно.

Оцінки достовірності виконують подвійну функцію. У масштабі вони дозволяють організаціям програмно спрямовувати області з низькою достовірністю на перевірку людиною та автоматично затверджувати вилучення з високою достовірністю. Це створює так звану “людино-в-циклі” верифікацію, не вимагаючи перегляду кожної сторінки кожного документа. У виробничих системах OCR рідко є кінцевою метою – це перший крок у більшому конвеєрі.

Розробники, які створюють RAG-системи, агентні робочі процеси або автоматизацію документів, часто витрачають більше часу на реконструкцію компоновки та структури, ніж на подальшу логіку ШІ. OCR 4 має на меті усунути цей крок реконструкції, і якщо він виправдає обіцянки, цінність полягатиме не тільки в економії витрат на OCR, а й у скороченні інженерних годин у всьому конвеєрі обробки документів.

Незалежні рецензенти віддали перевагу результатам Mistral у 72% випадків, але бенчмарки дають складнішу картину

Mistral повідомляє, що OCR 4 досяг 72% середнього показника перемог у прямому порівнянні з провідними конкурентами, проведеному незалежними анотаторами на понад 600 реальних документах 12 мовами. Модель також посіла перше місце за загальним показником на OlmOCRBench (85.20) та отримала 93.07 на OmniDocBench.

Однак компанія сама закликає до обережності в інтерпретації цих цифр. У своєму релізі Mistral зробила незвичайний крок, перевіривши та публічно розкривши конкретні типи артефактів оцінювання, з якими вона зіткнулася, включаючи помилки у вихідних анотаціях, невідповідність еквівалентної LaTeX-нотації, припущення щодо порядку читання стовпців та проблеми з атрибуцією колонтитулів. “Тому ми розглядаємо сукупний показник як орієнтовний, а не остаточний”, – заявила компанія, що є помітно прозорою позицією від постачальника, який анонсує продукт.

Ця прозорість своєчасна. У загальнодоступній таблиці лідерів OlmOCRBench деякі дослідники відзначили, що OCR 4 наразі посідає третє місце, поступаючись відкритим моделям, таким як Chandra OCR 2. Деякі моделі з відкритим кодом самостійно повідомляють про вищі сукупні показники OmniDocBench – PaddleOCR-VL-1.6 заявляє 96.33 – хоча ці результати не були незалежно відтворені в загальнодоступній таблиці лідерів.

Незважаючи на це, перші відгуки від підприємств є сприятливими. Ейдан Донохью, інженер зі ШІ у фінансовій компанії Rogo, зазначив, що компанія провела бенчмаркінг OCR 4 проти провідних агентних парсерів документів на наборі даних фінансових запитань-відповідей з щільним вмістом графіків і “досягла еквівалентної точності приблизно у 8 разів нижче за вартістю та у 17 разів нижче за затримкою”. Іван Михайлов, інженер зі ШІ в компанії з управління інтелектуальною власністю Anaqua, сказав, що OCR 4 “приблизно в 4 рази швидший за сторінку, ніж наш попередній постачальник”.

Однак корпоративні покупці повинні проводити власні оцінки, а не покладатися на будь-які бенчмарки постачальника. Практичне питання полягає не в тому, яка модель показує найвищий результат у таблиці лідерів, а в тому, яка модель дає найменше помилок для ваших конкретних документів, вашими конкретними мовами, за ціною та затримкою, що відповідають вашому робочому процесу.

Mistral перетворює вилучення документів на повноцінне корпоративне AI-рішення з OCR 4 2

Заборона експорту Anthropic надала аргументу Mistral про суверенітет необхідний доказ

Випуск OCR 4 відбувається в надзвичайно сприятливому геополітичному контексті для стратегічного позиціонування Mistral. 12 червня компанія Anthropic була змушена припинити доступ до своїх новітніх моделей ШІ, Fable 5 і Mythos 5, після того, як Міністерство торгівлі США використало механізми експортного контролю національної безпеки, заборонивши компанії розповсюджувати ці моделі будь-яким іноземним громадянам. Корпоративні клієнти у фінансовій, медичній, SaaS-сферах та критичній інфраструктурі раптово втратили доступ до своїх основних інтелектуальних сервісів без попереднього повідомлення чи ефективних засобів захисту. Станом на 24 червня обидві моделі залишаються офлайн, а ринки прогнозів оцінюють ймовірність їх відновлення до 1 липня лише в 57%.

Цей інцидент підтвердив попередження, яке генеральний директор Mistral Артур Менш озвучує вже понад рік. Як повідомляв Business Insider, Менш попереджав на London Tech Week у червні 2025 року про американські компанії ШІ, “які тримають ключі” до своїх моделей, називаючи це сценарієм, коли європейські компанії “надають важелі впливу своїм постачальникам”. Він додав: “В якийсь момент вам потрібно буде мати можливість увімкнути або вимкнути це, і ви не захочете залишати це іншій країні”.

Аргумент набув ще більшої актуальності, оскільки ширша ініціатива Менша щодо суверенітету наростала останніми місяцями. Як повідомляв CNBC наприкінці травня, Менш заявив виданню: “Європа відстає у розбудові інфраструктури, тому ми інвестуємо, щоб скоротити цей розрив”.

Водночас Менш виступив проти заклику Папи Римського Лева XIV “знешкодити” ШІ, стверджуючи, що Європа не може дозволити собі відставати від американських технологічних гігантів. “Ми всі за мир, але якщо ви подивитеся на наших конкурентів і супротивників у світі, вони використовують штучний інтелект… нам потрібно мати власні можливості”, – сказав Менш журналістам.

Модель розгортання OCR 4 в одному контейнері для самостійного розміщення є продуктним вираженням цього аргументу. Американський провайдер, що пропонує європейську юрисдикцію даних, означає, що документи зберігаються у Франкфурті, але регулюються американським законодавством. Mistral, зареєстрована у Франції та працює під юрисдикцією ЄС, пропонуючи контейнерне розгортання на місці, означає, що документи взагалі не залишають інфраструктури клієнта. Положення про штрафи Акту ЄС про ШІ набувають чинності 2 серпня, що посилює нормативний тиск на розрахунки відповідності для європейських підприємств, які оцінюють постачальників документних ШІ.

Mistral перетворює вилучення документів на повноцінне корпоративне AI-рішення з OCR 4 3

Безкоштовна відкрита модель OCR від Baidu з’явилася днем раніше – і контраст вражає

Реліз Mistral не був унікальним. Лише за день до запуску OCR 4, 22 червня, Baidu випустила Unlimited-OCR – модель з 3 мільярдами параметрів під ліцензією MIT, яка вирішує одну з найскладніших проблем документних ШІ: парсинг цілих PDF та багатосторінкових сканів за один прохід, без розбиття вхідних даних чи подальшого з’єднання вихідних. Модель Baidu використовує техніку Reference Sliding Window Attention (R-SWA), яка, як пояснив один з коментаторів на Hacker News, розділяє фокус ШІ на два шляхи: повна увага до оригінального зображення документа та обмежена пам’ять згенерованого тексту в вузькому, рухомому вікні. Результатом є стабільний розмір KV-кешу та можливість розпізнавати понад 40 сторінок за один прохід. Модель здобула 1800 зірок на GitHub за перші 24 години та понад 479 голосів на Hacker News, де обговорення тривало 109 коментарів.

Ці два релізи окреслюють те, що деякі аналітики називають “розколом документних ШІ” у червні 2026 року: самостійно розгорнутий парсинг довгих документів з відкритими вагами проти структурованого керованого вилучення з корпоративними функціями.

Модель Baidu є безкоштовною за ліцензією MIT, працює на стандартному GPU-обладнанні, не має керованого API чи корпоративної угоди про рівень обслуговування (SLA). Модель Mistral – це комерційний продукт з оплатою за сторінку, обмежувальними рамками, оцінками достовірності, класифікацією блоків, багатоплатформним розподілом та опціями розгортання на власному обладнанні для корпоративних клієнтів.

Unlimited-OCR може бути кращим інструментом для дослідницької команди, яка цифровізує скановані дисертації на одному GPU. OCR 4 створений для процесу ІТ-закупівель – світу SLA, угод про обробку даних та аудиту відповідності.

Окрім Baidu, до ширшого поля конкурентів OCR входять Google Document AI, Amazon Textract, Azure Document Intelligence, ABBYY Vantage та зростаюча кількість моделей з відкритими вагами.

У дискусії на Hacker News щодо Unlimited-OCR, практики надали відверту оцінку стану технологій. Joss82, який працює над парсингом документів 10 років, прямо написав: “OCR все ще лайно у 2026 році”. Тим часом один користувач на ім’я SyneRyder повідомив про успіх з Claude для OCR сотень сторінок рукописних документів, зазначивши, що модель надала результати “без необхідності корекції” і навіть вказала на помилку послідовності в вихідному тексті. Ці звіти практиків підкреслюють ключову напруженість на ринку: продуктивність сильно варіюється залежно від конкретного типу документа, мови та якості вихідного матеріалу.

Справжня гра – це не OCR, а корпоративний стек ШІ з документним інтелектом як точкою входу

Якщо поглянути ширше, реліз OCR 4 від Mistral – це насправді не історія про OCR. Це історія виходу на корпоративний ринок, побудована на глобальному ринку інтелектуальної обробки документів вартістю 4,4 мільярда доларів, який, за прогнозами Grand View Research, зростатиме на 33,1% щорічно до 2030 року.

Для Mistral OCR є ключем до корпоративних бюджетів на ШІ. Модель безпосередньо інтегрується з Search Toolkit компанії – фреймворком для композитного пошуку з відкритим кодом, анонсованим на AI Now Summit. У цій архітектурі OCR 4 слугує рівнем прийому даних для retrieval-augmented generation та корпоративних пошукових систем, перетворюючи сирі документи на структурований, класифікований вхідний матеріал, готовий до цитування. Логіка очевидна: як тільки підприємство використовує OCR 4 для вилучення документів, ширший набір моделей Mistral – включаючи Medium 3.5 для міркувань та агентну платформу Vibe для виконання завдань – стає природним наступним кроком у стеку.

Mistral перетворює вилучення документів на повноцінне корпоративне AI-рішення з OCR 4 4

Ця амбіція щодо побудови екосистеми має вирішальне значення для розуміння поточної траєкторії залучення коштів Mistral. Bloomberg нещодавно повідомив, що компанія веде попередні переговори про залучення близько 3 мільярдів євро (3,5 мільярда доларів) при оцінці приблизно 20 мільярдів євро – майже вдвічі більше, ніж оцінка раунду Series C у вересні. На сьогодні Mistral залучила лише близько 4 мільярдів доларів, що є часткою від сум, залучених її найбільшими американськими конкурентами. OCR 4 та пов’язаний з ним конвеєр корпоративних доходів є частиною того, як компанія планує обґрунтувати вищу оцінку, націлившись на 1 мільярд євро доходу на 2026 рік, порівняно з 200 мільйонами євро у 2025 році, за даними Le Monde.

Mistral – це компанія з приблизно 1000 співробітників та амбіціями конкурувати з лабораторіями, які залучили в 40 разів більше капіталу. Вона не може виграти в гонці загальних моделей проти OpenAI та Anthropic. Що вона може зробити, так це побудувати диференційований корпоративний стек навколо суверенітету, структурованого документного інтелекту та агентних робочих процесів – і використовувати цей стек для захоплення європейських корпоративних бюджетів, які все більше насторожено ставляться до залежності від американських постачальників.

Структура ціноутворення підсилює цю стратегію: при ціні 2 долари за 1000 сторінок у пакетному режимі, вартість обробки архіву корпоративних документів обсягом 100 000 сторінок знижується до 200 доларів, роблячи масштабні проекти оцифрування економічно життєздатними способами, які могли бути неможливими при ціноутворенні на основі токенів для візуально-мовних моделей.

Чи зможе Mistral реалізувати це бачення в масштабі – проти Google, Amazon, Microsoft та потужної екосистеми відкритого коду – залишається відкритим питанням. Але криза експортного контролю Anthropic ще не вирішена, регулювання щодо суверенітету даних у Європі посилюються, а на горизонті маячить потенційний раунд фінансування на 20 мільярдів євро. Компанія проводить вебінар з експлуатації OCR 4 7 липня о 18:00 CET.

Два тижні тому аргумент на користь побудови інфраструктури ШІ поза межами досяжності американських експортних контролів був теоретичним. Потім уряд США натиснув на кнопку, і найдосконаліші моделі Anthropic зникли для всіх неамериканців на планеті. Mistral не спричинила цю кризу – але вона провела останній рік, створюючи продукт, який робить її значущою.

Прогноз ІТ-Блогу: OCR 4 стане важливим каталізатором для європейських підприємств, що прагнуть до технологічного суверенітету. Ми очікуємо, що ця модель буде інтегрована в ширший екосистему рішень Mistral, створюючи конкурентну перевагу на ринку корпоративного ШІ, де безпека даних та відповідність нормам стають дедалі важливішими.

Джерело новини: venturebeat.com