Alibaba презентує Qwen3.7-Max: 35 годин автономної роботи та підтримка зовнішніх моделей

Індустрія штучного інтелекту (ШІ) остаточно вступила в еру “агентів” – парадигму, де моделі ШІ виходять за межі генерації тексту, активно плануючи, виконуючи та коригуючи складні завдання протягом днів, а не секунд.

Тому, ймовірно, не дивно, що команда ШІ-дослідників Alibaba, відома своєю моделлю Qwen, представила розробку, здатну до самостійної роботи в ролі ШІ-агента протягом кількох днів. Ця модель, Qwen3.7-Max, як повідомляється в блозі компанії, продемонструвала “близько 35 годин безперервного автономного виконання”. Важливо зазначити, що на відміну від попередніх релізів Qwen, ця модель є пропрієтарною, а не відкритою.

Це відповідає очікуванням багатьох аналітиків та експертів галузі, особливо після відходу ключових лідерів команди Qwen раніше цього року. Однак, з фінансової точки зору Alibaba, це виглядає доцільно, принаймні в короткостроковій перспективі: навчання потужних моделей ШІ, таких як Qwen3.7-Max, є надзвичайно витратним, а безкоштовне розповсюдження, як у випадку з відкритими моделями, не дозволяє одразу окупити інвестиції.

У цьому аспекті Alibaba узгоджує свої стратегії з американськими ШІ-гігантами, такими як OpenAI та Google, пропонуючи найсучасніші моделі через платні API, пакетні підписки або веб-сервіси, тоді як менш потужні версії залишаються відкритими.

Тим не менш, поява Qwen3.7-Max розширює вибір для підприємств та індивідуальних користувачів, створюючи додаткову конкуренцію для американських ШІ-лабораторій – що, безумовно, вигідно споживачам. Однак, той факт, що модель доступна лише через китайські сервери, може обмежувати її привабливість для американських та європейських компаній, які прагнуть забезпечити максимальну відповідність нормам безпеки та суверенітету даних, особливо при виконанні державних контрактів.

Ера “марафонського” ШІ

Щоб зрозуміти, чому Qwen3.7-Max є значним відступом від попередніх моделей, необхідно розглянути принципи її навчання та функціонування.

Зазвичай, мовні моделі деградують при спробі підтримувати одну лінію роздумів протягом тисяч діалогових обмінів: вони забувають інструкції, вигадують змінні або застрягають у логічних петлях. Qwen3.7-Max була спеціально розроблена як “універсальна основа для агентів” здатна до “довгострокового міркування” для подолання цих перешкод.

Найбільш вражаючим прикладом цієї можливості є автономне інженерне завдання, описане командою Qwen. Моделі був наданий доступ до ізольованого сервера з прискорювачем обчислень T-Head ZW-M890 PPU – апаратної архітектури, з якою модель не стикалася під час навчання. Завдання полягало в оптимізації ядра уваги (attention kernel).

Протягом 35 годин безперервно Qwen3.7-Max працювала повністю автономно. Вона здійснила 1 158 окремих викликів інструментів, провела 432 оцінки ядра, діагностувала помилки компіляції та ітеративно покращувала код, досягнувши прискорення в 10.0 разів за середнім геометричним показником.

Для порівняння, китайські конкурентні моделі, такі як GLM-5.1 від z.ai та Kimi K2.6 від Moonshot, досягли прискорення лише в 7.3x та 5.0x відповідно, часто самостійно завершуючи сесії, коли не могли досягти прогресу. Однак, обидві моделі доступні як відкриті.

Ця витривалість досягається завдяки тому, що Alibaba називає “масштабуванням середовища”. Подібно до того, як ранні великі мовні моделі (LLM) ставали розумнішими, поглинаючи різноманітніший текст, Qwen3.7-Max навчалася на величезному, масштабованому масиві динамічних агентних середовищ.

Модель здатна симулювати річний життєвий цикл стартапу в рамках оцінки “YC-Bench”, проходячи сотні раундів прийняття рішень, що охоплюють управління персоналом та перевірку контрактів. У цій симуляції модель змогла згенерувати віртуальний дохід у розмірі 2.08 мільйона доларів, майже подвоївши показники попереднього покоління, Qwen3.6-Plus.

Крім того, модель має вбудований механізм самоконтролю, що запобігає “зловживанню винагородою” (reward-hacking), самостійно виявляючи спроби обману навчального середовища та додаючи евристичні правила для виправлення власної поведінки.

Інтелект для будь-якого каркаса

З точки зору продукту, Qwen3.7-Max розроблена як когнітивний рушій для сучасного програмного забезпечення та корпоративної автоматизації.

Модель пропонує величезне контекстне вікно на 1 мільйон токенів та максимальний вихідний ліміт у 64 тисячі токенів, забезпечуючи значний запас для обробки розлогих кодових баз або довгих технічних документів.

Однією з найцікавіших її функцій є “крос-системна генералізація”. Замість того, щоб бути жорстко запрограмованою для оптимальної роботи в межах конкретного пропрієтарного інтерфейсу, Qwen3.7-Max побудована для роботи як вбудований рівень інтелекту для різноманітних агентних фреймворків. Вона нативно підтримує протокол API Anthropic, дозволяючи розробникам інтегрувати її безпосередньо в існуючі інструменти, такі як Claude Code або OpenClaw.

Бенчмаркові дані, надані Alibaba, свідчать про те, що такий узагальнений підхід приніс значні дивіденди.

За бенчмарком Apex Math Reasoning Qwen3.7-Max отримала 44.5 бала, випередивши Claude Opus-4.6 Max (34.5 бала) та DeepSeek V4-Pro Max (38.3 бала). Вона також продемонструвала домінантні результати на Humanity’s Last Exam (41.4 бала) та реалістичному бенчмарку для агентів MCP-Atlas (76.4 бала).

Alibaba презентує Qwen3.7-Max: 35 годин автономної роботи та підтримка зовнішніх моделей 1

Це перетворюється на реальну користь для кінцевих користувачів. Завдяки інтеграції з відкритим протоколом Model Context Protocol (MCP) модель може функціонувати як автономний офісний асистент, здатний читати специфікації університетського форматування та автоматично переформатовувати недбало оформлений документ Word через інструменти командного рядка без втручання людини.

Запуск такого рівня інтелекту має свою ціну. Розробники, які отримують доступ до API через Alibaba Cloud Model Studio, платитимуть 2.50 долара за 1 мільйон вхідних токенів та 7.50 долара за 1 мільйон вихідних токенів. Платформа також включає окреме ціноутворення для створення та читання кешу, а також плату в розмірі 10 доларів за 1 000 викликів інтегрованих веб-пошуків, хоча інструменти інтерпретатора коду залишаються безкоштовними протягом обмеженого періоду.

Qwen3.7-Max займає стратегічне проміжне положення в поточній економіці API. Хоча вона вимагає помітної премії порівняно з агресивно цінованими вітчизняними конкурентами – коштуючи майже вдвічі дорожче за DeepSeek V4 Pro (5.22 долара) та Z.ai’s GLM-5.1 (5.80 долара) – вона значно дешевша за західні передові гіганти, з якими вона регулярно конкурує за бенчмарками.

Для порівняння, запуск складних агентних робочих процесів через GPT-5.4 від OpenAI або Claude Opus 4.7 від Anthropic обійдеться розробникам у 17.50 долара та 30.00 долара за мільйон токенів відповідно. Дивіться знімок ціноутворення API від VentureBeat нижче:

Модель

Вхідні

Вихідні

Загальна вартість

Джерело

MiMo-V2.5 Flash

0.10$

0.30$

0.40$

Xiaomi MiMo

MiniMax M2.7

0.30$

1.20$

1.50$

MiniMax

Gemini 3.1 Flash-Lite

0.25$

1.50$

1.75$

Google

MiMo-V2.5

0.40$

2.00$

2.40$

Xiaomi MiMo

Kimi-K2.6

0.95$

4.00$

4.95$

Moonshot/Kimi

GLM-5

1.00$

3.20$

4.20$

Z.ai

Grok 4.3 (low context)

1.25$

2.50$

3.75$

xAI

DeepSeek V4 Pro

1.74$

3.48$

5.22$

DeepSeek

GLM-5.1

1.40$

4.40$

5.80$

Z.ai

Claude Haiku 4.5

1.00$

5.00$

6.00$

Anthropic

Grok 4.3 (high context)

2.50$

5.00$

7.50$

xAI

Qwen3.7-Max

2.50$

7.50$

10.00$

Alibaba Cloud

Gemini 3.5 Flash

1.50$

9.00$

10.50$

Google

Gemini 3.1 Pro Preview (≤200K)

2.00$

12.00$

14.00$

Google

GPT-5.4

2.50$

15.00$

17.50$

OpenAI

Gemini 3.1 Pro Preview (>200K)

4.00$

18.00$

22.00$

Google

Claude Opus 4.7

5.00$

25.00$

30.00$

Anthropic

GPT-5.5

5.00$

30.00$

35.00$

OpenAI

Позиціонуючи Qwen3.7-Max трохи нижче за Gemini 3.5 Flash від Google (10.50 долара), але значно вище за бюджетні моделі, Alibaba сигналізує, що це не просто новий продукт, а флагманський рушій для міркувань, ціна якого розрахована на переманювання корпоративних завдань від найдорожчих пропозицій Кремнієвої долини.

Ліцензування поки що залишається пропрієтарним

Незважаючи на всю технічну блискучість, найбільш суперечливим аспектом Qwen3.7-Max є спосіб її розповсюдження. Qwen позиціонує реліз як “пропрієтарну модель”. Вона доступна виключно через API.

Історично, Qwen від Alibaba була героєм спільнот з відкритим вихідним кодом та локальних LLM. Попередні ітерації, такі як Qwen 2.5 та Qwen 3.6, випускали свої ваги публічно. Відкриті ваги дозволяють розробникам, дослідникам та підприємствам завантажувати модель, запускати її на власному обладнанні та доопрацьовувати для специфічних або чутливих до даних випадків використання, не передаючи конфіденційну інформацію на сторонні сервери.

Замикаючи Qwen3.7-Max за API, Alibaba переходить до стандартної комерційної моделі, яку використовують OpenAI (з GPT-4) та Anthropic (з Claude). Для корпоративних користувачів це означає необхідність довіряти Alibaba Cloud свої потоки даних та покладатися виключно на підключення до Інтернету для роботи своїх агентних систем. Для спільноти з відкритим вихідним кодом це означає втрату доступу до однієї з найпотужніших моделей на планеті.

Реакція спільноти: подив та розчарування

Реакція спільноти розробників була швидкою та характеризувалася сумішшю глибокої поваги до інженерного досягнення та розчарування щодо моделі ліцензування.

Видатний коментатор у сфері ШІ Sudo su (@sudoingX) влучно передав загальні настрої в X (колишньому Twitter). “Qwen – це нереально”, – написав він. “Вони щойно випустили 3.7 max, і вона перевершує opus 4.6 max за більшістю проведених ними тестів”.

Технічні метрики, особливо витривалість моделі, вразили багатьох у галузі. “Цифра Apex Math, 44.5 проти 34.5 у Opus, це не мала різниця”, – зазначив Sudo su. “35 годин безперервно на оптимізації ядра із понад 1000 викликами інструментів – це те, що я продовжую перечитувати. Це дійсно ера агентів, а не просто слова на слайді”.

Швидкість ітерацій Alibaba також привертає увагу. З випуском Qwen 3.6 лише минулого місяця, стрибок до 3.7-Max підкреслює невпинний темп розробки. Як зазначив Sudo su, “ніхто інший не рухається так”.

Проте, похвала значною мірою затьмарена переходом до закритої екосистеми. Втрата ваг моделі розглядається як удар по руху за локалізований ШІ, який покладається на найсучасніші відкриті моделі для розширення меж можливого на споживчому обладнанні або приватних корпоративних кластерах.

“Є одне, але: будь ласка, зробіть цю модель теж відкритою”, – благав Sudo su у своєму пості. “3.6 dense покращив усю екосистему локальних LLM. Якщо max-рівень стане доступним лише через API, це закриє двері, які ми тримали відчиненими. Надайте нам ваги згодом”.

Qwen3.7-Max доводить, що ера автономних агентів – це вже не теоретична проекція, а реальність, здатна виконувати складні інженерні завдання, поки люди сплять. Питання лише в тому, чи стане ця нова хвиля ШІ демократизованим ресурсом, який можна завантажити на свій ноутбук, чи інтелектуальною послугою, що орендується виключно з хмари. Наразі, з Qwen3.7-Max, це, безумовно, останнє.

Прогноз ІТ-Блогу: Qwen3.7-Max встановлює новий стандарт для довгострокових автономних ШІ-агентів. Очікується, що це стимулюватиме розробку подібних рішень від інших компаній, а також зростання попиту на спеціалізоване обладнання для таких завдань. Попри пропрієтарний статус, конкуренція за продуктивність та інтеграцію з відкритими протоколами може призвести до поступового відкриття деяких компонентів або створення гібридних моделей.

Оригінал статті: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *