Qwen3.7-Plus від Alibaba: мультимодальність за копійки, але з "але"

Цього тижня Alibaba представила Qwen3.7-Plus – найновішу велику мовну модель (LLM) у своєму всесвітньо улюбленому та розширюваному сімействі Qwen. Ця модель демонструє значно розширені мультимодальні можливості та коштує на 60% дешевше за попередню версію Qwen3.7-Max, яка була випущена лише кілька тижнів тому і працювала виключно з текстом.

Проте, як і її безпосередній попередник, Qwen3.7-Plus доступна лише за закритою комерційною ліцензією через пропрієтарні програмні інтерфейси (API) та платформу Qwen Chat.

Це значний відхід від попередньої стратегії Qwen, яка була зосереджена переважно на випуску потужних, майже найсучасніших моделей з відкритим вихідним кодом. Підприємства та користувачі, які покладалися на моделі Qwen з відкритим кодом – серед них і американські гіганти, такі як Airbnb – безсумнівно, будуть розчаровані тим, що Alibaba переходить на закриту модель для своїх нових випусків.

Незважаючи на це, модель заслуговує на увагу завдяки своїй низькій вартості та високій продуктивності в мультимодальних завданнях, таких як створення візуальних матеріалів корпоративного рівня або аналіз відео, зображень та скріншотів, що Qwen3.7-Max робити не може (вона суто текстова). Вона є однією з найдоступніших за ціною потужних моделей ШІ на ринку, поступаючись лише тимчасовій дисконтній ціні китайського конкурента MiniMax-M3.

Знімок цін на API моделей VentureBeat Frontier AI

Модель	Введення	Виведення	Загальна вартість	Джерело
MiMo-V2.5 Flash	$0.10	$0.30	$0.40	Xiaomi MiMo
deepseek-v4-flash	$0.14	$0.28	$0.42	DeepSeek
deepseek-v4-pro	$0.435	$0.87	$1.305	DeepSeek
MiniMax-M3	$0.30	$1.20	$1.50	MiniMax
Qwen3.7-Plus	$0.40	$1.60	$2.00	Alibaba Cloud
Gemini 3.1 Flash-Lite	$0.25	$1.50	$1.75	Google
MiMo-V2.5	$0.40	$2.00	$2.40	Xiaomi MiMo
Grok 4.3 low context	$1.25	$2.50	$3.75	xAI
GLM-5	$1.00	$3.20	$4.20	Z.ai
Kimi-K2.6	$0.95	$4.00	$4.95	Moonshot/Kimi
GLM-5.1	$1.40	$4.40	$5.80	Z.ai
Grok 4.3 high context	$2.50	$5.00	$7.50	xAI
Qwen3.7-Max	$2.50	$7.50	$10.00	Alibaba Cloud
Gemini 3.5 Flash	$1.50	$9.00	$10.50	Google
Gemini 3.1 Pro Preview ≤200K	$2.00	$12.00	$14.00	Google
GPT-5.4	$2.50	$15.00	$17.50	OpenAI
Gemini 3.1 Pro Preview >200K	$4.00	$18.00	$22.00	Google
Claude Opus 4.8	$5.00	$25.00	$30.00	Anthropic
GPT-5.5	$5.00	$30.00	$35.00	OpenAI

Підтримка безперервності під час складних циклів виконання завдань

Для технічних осіб, які приймають рішення щодо розгортання автономних агентів, основною перешкодою рідко є початковий інтелект моделі. Натомість, це деградація стану – тенденція фреймворку агента втрачати свою аналітичну траєкторію під час багатоетапних завдань з довгою часовою перспективою.

Qwen3.7-Plus долає цю архітектурну вразливість завдяки комбінованому підходу до управління контекстом та збереження стану міркувань.

Модель має контекстне вікно до 1 мільйона токенів і виділяє до 256 тисяч токенів спеціально для внутрішньої обробки ланцюжка думок (chain-of-thought). Щоб уявити цю потужність, розглянемо автоматизованого агента міграції в хмару: він може проаналізувати весь код, визначити залежності та витратити тисячі токенів на тиху оцінку граничних випадків перед виконанням одного рядка bash-скрипта.

Критично важливо, що API надає параметр під назвою ‘preserve_thinking’. В екосистемі Alibaba ця можливість слугує стандартизованим архітектурним мостом, а не ступінчастою перевагою. Alibaba представила цю функцію під час попереднього покоління Qwen 3.6, інтегрувавши її як у модель з відкритими ваговими коефіцієнтами Qwen3.6-27B, так і в пропрієтарні моделі Max.

По суті, цей параметр працює на рівні API та шаблонів для збереження внутрішніх блоків <think> протягом безперервних розмовних турів.

Ця структурна безперервність вирішує критичну перешкоду для розробників, які створюють завдання з довгою часовою перспективою. Зберігаючи ці внутрішні логічні цикли, функція запобігає втраті контексту моделлю або зайвому перерахунку її кешованої історії посеред виконання операції.

Коли модель виконує складні, багатоетапні агентські завдання з кодування, це збереження дозволяє системі утримувати початкову послідовність думок, не втрачаючи суть або не забуваючи базову логіку попередніх дій.

Alibaba далеко не самотня у визнанні цієї технічної необхідності, оскільки базова концепція зараз визначає архітектуру майже всіх великих лабораторій штучного інтелекту.

Anthropic використовує цю ж саму можливість під назвою “Extended Thinking” (Розширене мислення) для своїх передових моделей, включаючи найновішу Claude Opus 4.8. Цей фреймворк вимагає від розробників передавати незмінені блоки думок безпосередньо в API на наступних кроках для підтримки нерозривного ланцюжка міркувань.

OpenAI вирішує ту саму проблему через механізм шифрованого зворотного зв’язку для міркувань для таких моделей, як GPT-5.5. В екосистемі OpenAI розробники повинні повертати конкретні елементи міркувань, згенеровані разом з попередніми викликами функцій, забезпечуючи, що модель явно пам’ятає обґрунтування своїх дій.

Зрештою, ‘preserve_thinking’ – це просто термінологія Alibaba для того, що швидко стало беззаперечним стандартом для сучасних багатоповерхових міркувань.

Бенчмарки показують конкурентоспроможну, але не найсучаснішу модель

За показниками сирої потужності, ця архітектура глибоких міркувань призводить до структурних покращень у мультимодальних та агентських бенчмарках. Однак вона все ще поступається багатьом провідним та попереднім поколінням американських пропрієтарних моделей, таким як Claude Opus 4.6 від Anthropic та GPT-5.4 від OpenAI.

Qwen3.7-Plus від Alibaba: мультимодальність за копійки, але з "але" 2

На Terminal Bench 2.0-Terminus, який вимірює здатність моделі безпечно та ітеративно виконувати реальний командний код, Qwen3.7-Plus набрала 70.3 балів, випередивши DeepSeek-V4-Pro Max (67.9) та Gemini-3.1 Pro (63.5).

На бенчмарках комп’ютерного зору, що вимагають розуміння інтерфейсу, таких як ScreenSpot Pro, модель показала результат 79.0, значно випередивши застарілі галузеві стандарти, як-от GPT-5.4 (xhigh) з 67.4 та Claude-Opus-4.6 з 49.5. Метрики оцінки агентів (вибрані бенчмарки)

Що варто розглянути підприємствам при виборі Qwen3.7-Plus?

Для корпоративного архітектора ключове питання при аналізі Qwen3.7-Plus є очевидним: Що це замінить у нашому поточному технологічному стеку?

Модель призначена для прямої заміни провідних передових моделей (таких як моделі рівня GPT-5 або Claude-Max) у високочастотних робочих процесах розробників, автоматизації роботизованих процесів (RPA) та конвеєрах обробки даних.

Замість розгортання дорогої, загального призначення флагманської моделі для обробки повторюваних системних операцій, технічні команди можуть спрямовувати ці завдання на Qwen3.7-Plus. Вона одночасно обробляє інтерпретацію візуального інтерфейсу, виконання команд та генерацію коду.

Alibaba структурувала доставку свого API відповідно до існуючих фреймворків для відкритого та пропрієтарного програмного забезпечення підприємств. Кінцеві точки повністю сумісні з OpenAI, що означає мінімальні зміни в інфраструктурі для заміни існуючих залежностей. Для груп, що використовують автономні термінальні фреймворки, інтеграція нативно підтримується в кількох середовищах.

Інженери можуть запускати Qwen3.7-Plus безпосередньо через свої локальні термінальні налаштування, змінюючи базові цілі середовища.

З точки зору чистої вартості, запуск агентського фреймворку, який постійно звертається до величезних репозиторіїв коду або історії візуальних макетів, може швидко стати невиправдано дорогим.

Alibaba вирішує цю проблему, пропонуючи деталізовані ціни на кешування. Стандартна обробка введення коштує $0.40 за мільйон токенів, але якщо агент читає зі спеціально створеного кешу (наприклад, величезного базового репозиторію або стандартного набору UI підприємства, який залишається статичним протягом сотень автоматизованих циклів), вартість подальших зчитувань різко знижується до $0.04 за 1 мільйон токенів.

Цей рівень робить високочастотні, багатоповерхові ітерації агентів економічно доцільними в масштабі підприємства.

Відсутність ліцензії на відкритий код або відкритих ваг ставить питання відповідності для підприємств

При оцінці будь-якої моделі в екосистемі Qwen, першочерговим завданням для юридичних та безпекових команд є ліцензійна структура та операційні межі конвеєра даних.

Хоча попередні ітерації сімейства Qwen здобули значну увагу підприємств завдяки повній доступності ваг з відкритим вихідним кодом за ліцензіями Apache 2.0 або спеціалізованими ліцензіями для відкритого використання, Qwen3.7-Plus надається виключно як керований комерційний хмарний API через Alibaba Cloud Model Studio. Для управління ризиками підприємств це розходження має специфічні наслідки:

Відсутність локального розгортання ваг: Організації не можуть завантажувати, тестувати в ізольованому середовищі або локально розміщувати ваги Qwen3.7-Plus у своїх повністю ізольованих внутрішніх центрах обробки даних. Уся перевірка даних, візуальна обробка та виклики виконання повинні проходити через міжнародні кінцеві точки Alibaba Cloud (наприклад, сингапурський екземпляр, наведений у документації для розробників).
Відповідність та суверенітет даних: Оскільки модель вимагає хмарних обчислень, компанії, що працюють у суворих умовах суверенітету даних (наприклад, медичні установи, що підпадають під дію місцевих норм HIPAA/GDPR, або підрядники оборонної промисловості), повинні явно оцінювати, чи відповідає маршрутизація зовнішніх API їхнім конкретним зобов’язанням щодо резидентності даних.
Кероване зниження ризиків: З іншого боку, керована структура API знімає з внутрішньої інфраструктури тягар виділення, оптимізації та обслуговування багатопроцесорних кластерів (таких як спеціалізовані масиви Nvidia H100), просто для розміщення внутрішньої мережі агентів.

Проте Qwen3.7-Plus пропонує високий інтелект у різних модальностях за низькою ціною

Початкова реакція спільнот розробників та технічних венчурних інвесторів підкреслює зміну економіки розгортання агентів.

Видатний галузевий експерт та венчурний капіталіст у сфері Web3 @Boxmining відзначив стратегічну перевагу у вартості, заявивши:

“Qwen 3.7 Plus, будучи на 40% дешевшим за Max, змінює розмову. Якщо виведення достатньо якісне для більшості завдань з кодування і значно краще для візуальних робочих процесів, чи справді вам потрібен Max щодня, чи лише для важких суто термінальних завдань?”

Ця точка зору відповідає поточній тенденції оптимізації операційних бюджетів підприємств: перехід від необроблених, необмежених обчислень до цільової автоматизації завдань. Водночас, спеціалізовані дослідники глибоко в екосистемі зазначають, що це не просто інкрементальна оптимізація генерації тексту.

Дунцзе Лу, науковий стажер Alibaba Qwen, зазначив:

“Вона демонструє чіткі переваги над Qwen3.6-Plus у можливостях комп’ютерного зору, з кращою узагальнюючою здатністю, виходячи за рамки загальних завдань на робочому столі до професійних робочих процесів, таких як обробка даних та наукові дослідження.”

Зрештою, для корпоративних покупців, які визначають свою наступну дорожню карту інфраструктури, Qwen3.7-Plus представляє практичну альтернативу. Якщо основною метою вашої організації є створення стійких, візуально-спроможних автономних програмних циклів, які безпосередньо взаємодіють із середовищами розробників та хмарними консолями, – не перевищуючи бюджет на виведення, – ця модель надає вагому причину для перенесення виконання з дорожчих передових альтернатив.

Прогноз ІТ-Блогу: У наступні 1-2 роки ми побачимо подальше вдосконалення мультимодальних можливостей у моделей, подібних до Qwen3.7-Plus, що зробить їх ще більш ефективними для завдань, що вимагають візуального розуміння та взаємодії. Ймовірно, відбудеться певна стандартизація механізмів збереження контексту, що полегшить розробникам інтеграцію та оптимізацію автономних агентів.

За матеріалами: venturebeat.com

Qwen3.7-Plus від Alibaba: мультимодальність за копійки, але з “але”