Cohere відкриває безвтратне квантування та власні цитати з першою моделлю Command A+ під ліцензією Apache 2.0

Канадська лабораторія штучного інтелекту Cohere, яка нещодавно оголосила про злиття з німецьким стартапом Aleph Alpha, тепер має ще більше пропозицій для корпоративних розробників по всьому світу. Компанія, співзасновником якої є Ейдан Гомес (колишній співробітник Google та співавтор статті “Attention Is All You Need”), представила Command A+ – високоефективну мовну модель з 218 мільярдами параметрів, спеціально розроблену для складних міркувань, багатомодальної обробки документів та агентних робочих процесів.

Найвагомішим аспектом цього релізу є не стільки можливості самої моделі, скільки її доступність. Випустивши ваги моделі безкоштовно на популярному репозиторії коду зі штучним інтелектом Hugging Face під надзвичайно дозвільною ліцензією відкритого коду Apache 2.0 – першою в історії компанії, як зазначив Гомес, нині генеральний директор Cohere, у своєму пості на X – Cohere робить розважливу ставку на “суверенний ШІ”. Це концепція, що передбачає можливість для підприємств, урядів та розробників повністю працювати, контролювати та адаптувати передовий ШІ у власних безпечних середовищах, не жертвуючи продуктивністю.

Розріджена архітектура з екстремальною квантизацією

На архітектурному рівні Command A+ є значною еволюцією порівняно з попередніми щільними моделями Cohere. Це модель-декодер з розрідженою сумішшю експертів (Sparse Mixture-of-Experts, MoE) на основі архітектури Transformer. Хоча модель містить відносно скромні 218 мільярдів загальних параметрів, під час будь-якого конкретного кроку генерації активними залишаються лише 25 мільярдів. Це значно легший відбиток і вимагає набагато менше обчислювальних потужностей для роботи в режимі інференсу (обслуговування моделі в продакшн-середовищах для кінцевих користувачів або через агентів), ніж пропрієтарні американські гіганти, такі як GPT-5.5 від OpenAI та Claude Opus 4.7 від Anthropic, оцінки яких від сторонніх спостерігачів сягають трильйонів параметрів.

Ця розріджена архітектура є ключем до ефективності моделі. Простими словами, модель MoE спрямовує вхідні запити лише до конкретних нейронних мереж-“експертів”, які найкраще підходять для їх обробки, залишаючи решту моделі неактивною. Це знайома концепція, якої дотримуються більшість провідних великих мовних моделей (LLM) сьогодні, що дозволяє моделям зберігати величезну базу знань та нюансовані можливості міркування гігантської системи, але з вищою швидкістю та зниженими вимогами до обчислювальних ресурсів та енергії, оскільки одночасно активується лише частина параметрів.

Однак, там, де Cohere зробила крок далі за більшість у Command A+, так це зосередившись на апаратній ефективності через квантизацію – процес, що стискає обсяг пам’яті моделі шляхом зменшення точності її параметрів. Command A+ доступна у 16-бітному (BF16), 8-бітному (FP8) та високо стиснутому 4-бітному (W4A4) форматах.

Квантизація W4A4 є технічним центром цього релізу. Зазвичай, моделі міркування зазнають надмірної “податкової ставки квантизації”, коли стиснення моделі призводить до помітних погіршень у складних завданнях вирішення проблем. Cohere пом’якшила це, квантизувавши експертів MoE лише до 4-біт, зберігаючи при цьому критичні шляхи уваги при повній точності, доповнені технікою, що називається дистиляцією з урахуванням квантизації. Результатом є майже безвтратне стиснення, яке дозволяє цій масивній моделі працювати на одному графічному процесорі NVIDIA Blackwell B200 або лише на двох NVIDIA H100.

Прирости швидкості також вражають. Згідно з даними про продуктивність, опублікованими компанією, квантизація W4A4 при низькій паралельності досягає 375 токенів на секунду (TOPS) з затримкою першого токена (Time-to-First-Token, TTFT) лише 113 мілісекунд – це до 63% збільшення швидкості виведення та 17% зменшення затримки порівняно з попередньою моделлю Command A Reasoning. Крім того, Cohere переробила токенізатор моделі. Токенізатори розбивають текст на фрагменти, які обробляють моделі ШІ. Новий токенізатор високоефективний для глобального корпоративного використання, маючи нативну підтримку 48 мов. Що важливіше, він суттєво покращує ефективність токенізації для неєвропейських мов, зменшуючи кількість токенів, необхідних для генерації відповідей арабською на 20%, японською на 18% та корейською на 16%. Оскільки витрати на інференс розраховуються за токен, це безпосередньо перекладається на зниження операційних витрат для глобальних, багатомовних або неанглійських розгортань.

Агентні робочі процеси та високі показники на тестах з математики та спеціалізованих галузей

У той час як сира швидкість та розмір визначають розгортання, корисність моделі визначається її продуктовими можливостями. Command A+ була створена спеціально для “агентних” завдань – робочих процесів, де ШІ працює автономно або напівавтономно, використовує зовнішні інструменти, запитує бази даних і синтезує інформацію протягом кількох кроків.

Стрибок у показниках порівняно з попереднім поколінням вражає. На 𝜏²-Bench Telecom, що тестує складні міркування, модель піднялася з 37% до 85%. На Terminal-Bench Hard, що вимірює продуктивність агентного кодування, вона зросла з 3% до 25%. У складній математиці модель показала 90% на AIME 25, порівняно з 57% раніше.

Cohere відкриває безвтратне квантування та власні цитати з першою моделлю Command A+ під ліцензією Apache 2.0 1

Command A+ випереджає конкурентів свого kelasy (25B активних параметрів) у чистому розумінні та математиці, конкуруючи безпосередньо з набагато більшими моделями, такими як DeepSeek V4 Pro, за математичними показниками. Однак, для глибокого агентного кодування та загального широкомасштабного індексування інтелекту, вона наразі відстає від останніх поколінь від китайських відкритих конкурентів, таких як DeepSeek, Z.ai (GLM) та MiniMax. Втім, пряме порівняння ігнорує ключову перевагу Cohere: апаратну ефективність.

Окрім бенчмарків, Command A+ представляє глибокі інтеграції для корпоративної довіри та верифікації. Модель підтримує розмовне використання інструментів за допомогою стандартних шаблонів чату, дозволяючи розробникам безшовно підключати її до внутрішніх API, пошукових систем або SQL-баз даних.

Критично важливим є те, що Command A+ має нативну генерацію цитат. Коли Command A+ отримує інформацію із зовнішнього інструменту, вона не просто синтезує відповідь; вона генерує явні “групуючі фрагменти”. Використовуючи спеціальні теги, вбудовані у виведення, модель безпосередньо пов’язує кожне фактичне твердження, яке вона робить, з конкретним вихідним документом або рядком бази даних, звідки вона отримала інформацію. Для підприємств у високорегульованих галузях, таких як фінанси, охорона здоров’я чи юриспруденція, ця відстежуваність є вирішальною відмінністю між цікавим прототипом та готовим до виробництва додатком. Якщо користувач запитує звіт про щоденні продажі, модель виведе загальну суму продажів та явно вкаже на результат запиту до бази даних, що надав це число, мінімізуючи ризик непомічених галюцинацій.

Крім того, Command A+ є повністю мультимодальною, здатною обробляти як текст, так і зображення нативно в межах свого величезного контекстного вікна введення 128K, що робить її високоефективною для складних документів, таких як аналіз сканованих рахунків-фактур, діаграм або технічних посібників.

Перша модель Cohere AI з повною ліцензією Apache 2.0

У сучасному ландшафті ШІ термін “відкритий код” став неоднозначним. Багато провідних компаній у сфері ШІ випускають ваги своїх моделей під обмеженими комерційними ліцензіями або політиками прийнятного використання, які прямо забороняють великим підприємствам використовувати моделі в комерційних цілях, або забороняють використовувати моделі для навчання конкуруючих систем ШІ.

Дійсно, попередні моделі Cohere, включаючи Command R та Command R+, були випущені під ліцензією CC-BY-NC 4.0 (Creative Commons NonCommercial). Хоча їхні ваги моделей були відкриті для завантаження, експериментів та оцінки дослідниками та розробниками, їм було суворо заборонено комерційне використання без придбання окремої корпоративної ліцензії від Cohere або доступу через її інтерфейс програмування додатків (API), подібно до угод, які багато підприємств використовують для доступу до моделей ШІ від OpenAI, Anthropic, Google та інших провідних лабораторій.

Cohere змінила свій підхід, випустивши Command A+ під ліцензією Apache 2.0. Це критична відмінність для спільноти розробників. Apache 2.0 є справжньою, схваленою OSI ліцензією відкритого коду. Вона дозволяє будь-кому – від незалежних розробників до корпорацій зі списку Fortune 500 – використовувати, модифікувати, розповсюджувати та комерціалізувати модель без сплати ліцензійних зборів або дотримання обмежувальних умов неконкуренції. Як написав Гомес на X, це рішення було підтримане співзасновником Cohere Ніком Фростом, який опублікував двохевилинний огляд, назвавши її “найкращою моделлю, яку ми коли-небудь випускали”.

Для корпоративного сегменту ця ліцензія означає повну незалежність від постачальника. Компанія може завантажити ваги Command A+, доналаштувати їх на конфіденційних внутрішніх даних та розгорнути на власних приватних серверах або мережах з повітряним зазором. Вони не прив’язані до інфраструктури Cohere, змін цін або доступності API. Це остаточна реалізація суверенного ШІ. Реліз був негайно зустрінутий з широким інтересом в екосистемі розробників ШІ, значною мірою завдяки інтеграції “з першого дня” з основними фреймворками відкритого коду для інференсу, такими як Hugging Face та vLLM.

Що далі?

Випуск Command A+ знаменує собою зрілість екосистеми ШІ відкритого коду. Поєднуючи передові міркування, надійне використання агентних інструментів та мультимодальні можливості з архітектурою, спеціально розробленою для апаратної ефективності, Cohere змінює розрахунки для корпоративного впровадження ШІ. Вимога до величезних, централізованих обчислювальних кластерів довгий час була вузьким місцем для компаній, які надають пріоритет конфіденційності даних та контролю витрат. Демократизувавши доступ до моделі такого рівня під справжньою ліцензією відкритого коду, Cohere надала корпоративному ринку саме те, чого він вимагав: потужність хмари, здатну безпечно працювати в серверній кімнаті неподалік.

Прогноз ІТ-Блогу: Випуск Command A+ під ліцензією Apache 2.0, ймовірно, спровокує хвилю нових корпоративних додатків, побудованих на основі відкритого коду. Ми очікуємо, що подібні стратегії випуску стануть більш поширеними серед розробників LLM, які прагнуть отримати частку на корпоративному ринку, що вимагає суверенітету даних та гнучкості розгортання.

Дізнатися більше на: venturebeat.com

Розріджена архітектура з екстремальною квантизацією

Агентні робочі процеси та високі показники на тестах з математики та спеціалізованих галузей

Перша модель Cohere AI з повною ліцензією Apache 2.0

Що далі?

Залишити відповідьСкасувати відповідь