Cohere представила застосунок для кодування, що працює на одній H100

Cohere представила застосунок для кодування, що працює на одній H100 1

Розширюючи горизонти розробки: North Mini Code від Cohere

Інженерні команди, що займаються створенням автоматизованих систем кодування, тепер мають надійну альтернативу з відкритим кодом для керованих моделей, таких як Claude Fable 5. North Mini Code від Cohere, представлений минулого вівторка, може працювати навіть на одному прискорювачі NVIDIA H100. Ця інновація відкриває нові можливості, хоча й несе в собі певні компроміси: згідно з незалежними тестами, North Mini Code генерує втричі більше токенів виведення, ніж порівнянні моделі. Така надмірність може суттєво впливати на вартість роботи у великомасштабних виробничих процесах. Нова модель з відкритим кодом є розрідженою архітектурою “суміші експертів” (MoE) із 30 мільярдами параметрів, де на кожен токен активується 3 мільярди параметрів. Вона спеціально розроблена для автоматизованої розробки програмного забезпечення, включаючи оркестрацію підсистем, відображення архітектури, рев’ю коду та роботу з терміналом. Модель підтримує контекстне вікно до 256 000 токенів з максимальною довжиною генерації 64 000 токенів і доступна на платформі Hugging Face під ліцензією Apache 2.0.

Функціональні можливості North Mini Code

North Mini Code націлена на повний стек автоматизованої розробки коду. Ось її основні можливості та вимоги до апаратного забезпечення:

  • Інженерія програмного забезпечення. Cohere розробила North Mini Code спеціально для потреб автоматизованого інженерного процесу, а не адаптувала загальну модель. Вона має інтегровані можливості використання інструментів та підтримує “чергування думок”, що, за заявами Cohere, підвищує ефективність багатокрокових автоматизованих завдань.
  • Відображення архітектури та рев’ю коду. North Mini Code здатна аналізувати та відображати системну архітектуру, виявляти залежності та проводити рев’ю коду у великих кодових базах. Завдяки величезному контекстному вікну до 256 000 токенів, вона може обробляти багатофайлові проєкти за один прохід.
  • Автоматизовані завдання на базі терміналу. Модель навчена працювати в середовищі терміналу, обробляючи взаємодії з оболонкою, скрипти пакетів та інструменти командного рядка. Cohere тестувала її на платформі Terminal-Bench v2, яка оцінює роботу агентів у реальних термінальних середовищах, а не на синтетичних завданнях генерації коду.

Процес розробки

North Mini Code використовує розріджену архітектуру “суміші експертів” (MoE) зі 128 експертами, з яких 8 активуються на кожен токен. Це означає, що обчислювальні потужності, необхідні для інференсу, відповідають моделі приблизно з 3 мільярдами параметрів, незважаючи на загальний обсяг у 30 мільярдів. Нік Фрост, співзасновник Cohere, демонстрував роботу моделі на Mac Studio з використанням MLX, споживаючи близько 20 ГБ оперативної пам’яті – це той самий комп’ютер, який він використовує для власних локальних проєктів з кодування. Cohere навчала модель у два етапи керованого доналаштування (supervised fine-tuning), за якими слідувало навчання з підкріпленням (reinforcement learning) з перевіреними винагородами. Процес охопив понад 70 000 перевірених завдань з приблизно 5 000 репозиторіїв, знедубльованих відносно SWE-Bench. Замість оптимізації під єдиний шаблон агента, Cohere тренувала модель на трьох різних підходах: SWE-Agent, який використовує розширений CLI зі спеціалізованими командами; Mini-SWE-Agent, що працює з однією командою bash та необробленим виведенням оболонки; OpenCode, який використовує окремі інструменти, що повертають структурований JSON. Cohere повідомляє про 10% зростання продуктивності в оцінці OpenCode завдяки мультиханесному підходу, зберігаючи при цьому високу ефективність на SWE-Agent.

Позиціонування на ринку

North Mini Code виходить на ринок, де вже представлені такі конкуренти, як Mistral Devstral Small 2, GitHub Copilot, Cursor та Claude Fable 5. Кожна з цих пропозицій має свої унікальні переваги та компроміси щодо вартості та розгортання. Cohere проводить основне порівняння своєї моделі з Mistral Devstral Small 2, щільною моделлю з 24 мільярдами параметрів. За даними внутрішніх тестів постачальника, Cohere стверджує про 2.8-кратне збільшення пропускної здатності виведення та 30% перевагу в міжтокеновій затримці порівняно з Devstral Small 2 за однакових конфігурацій апаратного забезпечення. У своїй технічній публікації на Hugging Face Cohere також зазначає, що North Mini Code перевершує моделі з відкритим кодом, що мають до чотирьох разів більшу кількість параметрів, на заявлених бенчмарках, включаючи моделі з 120 мільярдами параметрів. Незалежна платформа Artificial Analysis класифікує North Mini Code на восьме місце серед 127 порівнянних моделей з відкритими вагами за швидкістю виведення (210 токенів на секунду) і часом до першого токена (0.25 секунди) проти середнього показника класу 1.95 секунди. У загальному рейтингу Artificial Analysis Intelligence Index модель посідає 18-те місце. Однак, ці дані також вказують на певний аспект: для завершення тестів Intelligence Index модель згенерувала 75 мільйонів токенів виведення, тоді як середній показник для цього класу становить 25 мільйонів. Така надмірність у великомасштабних автоматизованих конвеєрах суттєво збільшує вартість інференсу та затримки. «Раптом люди почали замислюватися: чи отримуємо ми достатню економічну цінність від токенів, що генеруються моделлю?», – зазначив Фрост під час презентаційного відео. «Локальне розгортання – це один зі способів розширення можливостей людей і перетворення ШІ на інструмент, що справді працює на них». GitHub Copilot, Cursor та Claude Code працюють за моделлю оплати за використання або за підпискою, без можливості локального розгортання. Claude Fable 5 від Anthropic, яка наразі є найпотужнішою загальнодоступною керованою моделлю для кодування, коштує 50 доларів за мільйон токенів виведення. Для Фроста North Mini Code є повною протилежністю Fable 5. «Вона мала, економічно ефективна, з ліцензією Apache 2.0 і може бути розгорнута локально. Саме так і повинні розвиватися великі мовні моделі: малі, з відкритим кодом, прозорі та суверенні, на противагу великим, дорогим, пропрієтарним та гегемонічним», – написав Фрост у своєму пості на X.

Наслідки для підприємств

Випуск North Mini Code чітко окреслює низку рішень, які формувалися протягом місяців для команд, що будують виробничі автоматизовані конвеєри кодування.

  • Спеціалізоване навчання для агентів стає новим стандартом оцінки. Різниця між моделями, доналаштованими для коду, та моделями, навченими спеціально для автоматизованих робочих процесів з перевіреними викликами інструментів та стійкістю до різних середовищ, тепер є суттєвим фактором при прийнятті рішень щодо конвеєрів. Будь-який постачальник моделей, що претендує на можливості автоматизованого кодування, повинен пояснити, чи використовувало його навчання перевірені агентні завдання, чи було воно адаптовано з загальної моделі.
  • Надмірність виведення – це прихована вартість конвеєра, яку бенчмарки не відображають. За даними Artificial Analysis, North Mini Code генерує втричі більше токенів виведення порівняно з аналогічними моделями. Така надмірність суттєво збільшує вартість інференсу та затримки у високооб’ємних конвеєрах. Тестування пропускної здатності на реальних обсягах робочих навантажень – це етап оцінки, який рейтинги бенчмарків пропускають.
  • Розкол цін на межі ринку стає реальною архітектурною дилемою. Fable 5 за 50 доларів за мільйон токенів виведення та North Mini Code на одному H100 представляють собою справжній компроміс між контролем витрат та місцем розташування даних з одного боку, та накладними витратами на керовану інфраструктуру з іншого. Команди, що експлуатують високопродуктивні автоматизовані конвеєри кодування, повинні змоделювати обидва сценарії витрат відповідно до свого фактичного обсягу роботи, перш ніж обрати один із них.

Прогноз ІТ-Блогу: North Mini Code, ймовірно, стимулюватиме подальший розвиток менших, більш спеціалізованих моделей з відкритим кодом, призначених для конкретних завдань, таких як розробка програмного забезпечення. Ми очікуємо побачити зростання інтересу до локального розгортання та гнучкіших цінових моделей, що конкуруватимуть з дорожчими керованими рішеннями.

Інформація підготовлена на основі матеріалів: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *