Kimi K2.7-Code: Розробники сумніваються в реальній ефективності зменшення токенів, попри обіцянки

Компанія Moonshot AI представила Kimi K2.7-Code — оновлення свого відкрите програмне забезпечення кодуючої моделі K2, яке, за твердженнями розробників, демонструє більш ефективне міркування та двозначне зростання продуктивності.

K2.7-Code побудована на архітектурі “суміш експертів” (mixture-of-experts) з трильйоном параметрів, аналогічно її попередниці K2.6. Інтеграція моделі здійснюється через API, сумісний з OpenAI, що є критично важливим для команд, які вже використовують K2.6 у своїх виробничих системах.

На момент запуску K2.6 у квітні, вона очолила тижневий рейтинг LLM-моделей на OpenRouter — це рейтинг, що базується на реальних рішеннях розробників щодо маршрутизації API, а не на самостійно заявлених результатах бенчмарків.

Moonshot AI заявляє, що K2.7-Code вирішує проблему, яку вони називають “надмірним обмірковуванням” (overthinking), зменшуючи використання токенів для міркувань на 30% порівняно з K2.6. Це число безпосередньо впливає на вартість висновків (inference costs) для команд, що працюють з агентськими робочими процесами (agentic workflows). Питання, чи збережеться така ефективність на незалежних бенчмарках, вже викликало дискусії серед фахівців.

Що таке Kimi K2.7-Code

K2.7-Code випущена під ліцензією Modified MIT, а її ваги доступні на HuggingFace. Модель може бути розгорнута за допомогою vLLM або SGLang. Вона працює виключно в режимі міркувань і не підтримує регулювання температури (temperature adjustment) — Moonshot AI зафіксувала її значення на рівні 1.0, що означає, що команди не можуть налаштовувати детермінованість виводу так, як це можливо з іншими моделями.

Ключовою зміною порівняно з K2.6 є спосіб генерації низькорівневого коду. Якщо K2.6 створювала реалізації шляхом обгортання існуючих бібліотек та використання усталених фреймворків, то K2.7-Code генерує реалізації безпосередньо. Moonshot AI стверджує, що це забезпечує більш надійну генералізацію для Rust, Go та Python, а також для різних типів завдань, включаючи розробку інтерфейсів, DevOps та оптимізацію продуктивності.

Щодо продуктивності на бенчмарках, Moonshot AI заявляє про зростання на 21.8% на Kimi Code Bench v2, на 11% на Program Bench та на 31.5% на MLS Bench Lite. Усі три бенчмарки є пропрієтарними розробками Moonshot AI. Модель не була подана на незалежний бенчмарк DeepSWE, який забезпечує 70-пунктний розкид між моделями, на відміну від 30-пунктного розкиду SWE-Bench Pro. Це робить DeepSWE більш дискримінаційним показником для команд, що конфігурують системи маршрутизації моделей.

VB Transform · 14–15 липня · Менло-Парк · Висновки та інфраструктура ШІ

GM збільшили кількість об’єднаних запитів на 300%, переосмисливши підхід до агентів. Ось що вони побудували.

Трек інфраструктури на Transform охоплює генерацію відео в реальному часі, стеки машинного міркування між машинами та те, що насправді потрібно для масштабування агентів на рівні підприємства.

Ознайомитися з повною програмою →

Більш чесна, але менш потужна

Картина за межами власних бенчмарків Moonshot є більш складною.

Дослідник Елліот Арледж протестував K2.7-Code, K2.6 та Claude Fable 5 на KernelBench-Hard — публічному бенчмарку, що фокусується на оптимізації GPU-ядер, і опублікував повні журнали виконання на kernelbench.com.

“K2.7 є більш чесною, але не більш потужною”, — написав Арледж у X.

У п’яти з шести завдань K2.7-Code створила реальні ядра Triton, тоді як K2.6 використовувала обгортки бібліотек. Два з цих ядер зазнали збоїв через власні помилки моделі. Результат ядра MoE регресував з показника K2.6 0.222 до 0.157.

“Fable, для довідки, перевершує кожне завдання, яке вона не провалила чесно”, — написав Арледж.

Сугумаран Баласубраманіян, розробник, який створив маршрутизатор моделей-завдань для платформи Hermes Agent, використовуючи DeepSWE як референсний сигнал, публічно відреагував на випуск K2.7-Code та поставив під сумнів вибір бенчмарків Moonshot AI.

“З повагою, кожна модель ‘покращується’ на двозначні показники на власному наборі тестів”, — написав Баласубраманіян у X.

Він зазначив, що K2.6 отримала 24% на DeepSWE, що відповідає GPT-5.4-mini, і запитав, чи подасть Moonshot AI K2.7-Code на той самий бенчмарк.

Баласубраманіян зазначив, що йому знадобилося 13 раундів перегляду, щоб отримати правильні дані бенчмарку для свого маршрутизатора, і він би спрямовував завдання з кодування на K2.7-Code, якби незалежні показники виявилися достовірними.

Що це означає для підприємств

Приріст ефективності використання токенів є негайно доступним. Команди, які використовують K2.6 у виробництві, можуть замінити її на K2.7-Code через OpenAI-сумісний API та очікувати зниження витрат на висновки в агентських робочих процесах без зміни архітектури. Зменшення використання токенів для міркувань на 30% — це власний показник Moonshot, але шлях інтеграції є достатньо низькоризикованим, щоб протестувати його на власних робочих навантаженнях перед прийняттям остаточного рішення.

Практичне питання полягає в тому, чи збережеться така ефективність на власних розподілах завдань команди. Тестування K2.7-Code на власних робочих навантаженнях перед коригуванням ваг шлюзу (gateway weights) є найменш ризикованим шляхом для з’ясування цього.

Прогноз ІТ-Блогу: Очікується, що Kimi K2.7-Code стимулюватиме подальшу конкуренцію в сегменті моделей для розробки програмного забезпечення, змушуючи інших гравців, таких як OpenAI та Google DeepMind, прискорити випуск оптимізованих версій своїх флагманських моделей. Також зросте попит на прозорість у звітуванні про результати бенчмарків, що сприятиме розвитку незалежних платформ оцінки.

За даними порталу: venturebeat.com

Що таке Kimi K2.7-Code

Більш чесна, але менш потужна

Що це означає для підприємств

Залишити відповідьСкасувати відповідь