
Компанія Moonshot AI представила Kimi K2.7-Code — оновлення свого відкрите програмне забезпечення кодуючої моделі K2, яке, за твердженнями розробників, демонструє більш ефективне міркування та двозначне зростання продуктивності.
K2.7-Code побудована на архітектурі “суміш експертів” (mixture-of-experts) з трильйоном параметрів, аналогічно її попередниці K2.6. Інтеграція моделі здійснюється через API, сумісний з OpenAI, що є критично важливим для команд, які вже використовують K2.6 у своїх виробничих системах.
На момент запуску K2.6 у квітні, вона очолила тижневий рейтинг LLM-моделей на OpenRouter — це рейтинг, що базується на реальних рішеннях розробників щодо маршрутизації API, а не на самостійно заявлених результатах бенчмарків.
Moonshot AI заявляє, що K2.7-Code вирішує проблему, яку вони називають “надмірним обмірковуванням” (overthinking), зменшуючи використання токенів для міркувань на 30% порівняно з K2.6. Це число безпосередньо впливає на вартість висновків (inference costs) для команд, що працюють з агентськими робочими процесами (agentic workflows). Питання, чи збережеться така ефективність на незалежних бенчмарках, вже викликало дискусії серед фахівців.
Що таке Kimi K2.7-Code
K2.7-Code випущена під ліцензією Modified MIT, а її ваги доступні на HuggingFace. Модель може бути розгорнута за допомогою vLLM або SGLang. Вона працює виключно в режимі міркувань і не підтримує регулювання температури (temperature adjustment) — Moonshot AI зафіксувала її значення на рівні 1.0, що означає, що команди не можуть налаштовувати детермінованість виводу так, як це можливо з іншими моделями.
Ключовою зміною порівняно з K2.6 є спосіб генерації низькорівневого коду. Якщо K2.6 створювала реалізації шляхом обгортання існуючих бібліотек та використання усталених фреймворків, то K2.7-Code генерує реалізації безпосередньо. Moonshot AI стверджує, що це забезпечує більш надійну генералізацію для Rust, Go та Python, а також для різних типів завдань, включаючи розробку інтерфейсів, DevOps та оптимізацію продуктивності.
Щодо продуктивності на бенчмарках, Moonshot AI заявляє про зростання на 21.8% на Kimi Code Bench v2, на 11% на Program Bench та на 31.5% на MLS Bench Lite. Усі три бенчмарки є пропрієтарними розробками Moonshot AI. Модель не була подана на незалежний бенчмарк DeepSWE, який забезпечує 70-пунктний розкид між моделями, на відміну від 30-пунктного розкиду SWE-Bench Pro. Це робить DeepSWE більш дискримінаційним показником для команд, що конфігурують системи маршрутизації моделей.
VB Transform · 14–15 липня · Менло-Парк · Висновки та інфраструктура ШІ
GM збільшили кількість об’єднаних запитів на 300%, переосмисливши підхід до агентів. Ось що вони побудували.
Трек інфраструктури на Transform охоплює генерацію відео в реальному часі, стеки машинного міркування між машинами та те, що насправді потрібно для масштабування агентів на рівні підприємства.
Ознайомитися з повною програмою →
Більш чесна, але менш потужна
Картина за межами власних бенчмарків Moonshot є більш складною.
Дослідник Елліот Арледж протестував K2.7-Code, K2.6 та Claude Fable 5 на KernelBench-Hard — публічному бенчмарку, що фокусується на оптимізації GPU-ядер, і опублікував повні журнали виконання на kernelbench.com.
“K2.7 є більш чесною, але не більш потужною”, — написав Арледж у X.
У п’яти з шести завдань K2.7-Code створила реальні ядра Triton, тоді як K2.6 використовувала обгортки бібліотек. Два з цих ядер зазнали збоїв через власні помилки моделі. Результат ядра MoE регресував з показника K2.6 0.222 до 0.157.
“Fable, для довідки, перевершує кожне завдання, яке вона не провалила чесно”, — написав Арледж.
Сугумаран Баласубраманіян, розробник, який створив маршрутизатор моделей-завдань для платформи Hermes Agent, використовуючи DeepSWE як референсний сигнал, публічно відреагував на випуск K2.7-Code та поставив під сумнів вибір бенчмарків Moonshot AI.
“З повагою, кожна модель ‘покращується’ на двозначні показники на власному наборі тестів”, — написав Баласубраманіян у X.
Він зазначив, що K2.6 отримала 24% на DeepSWE, що відповідає GPT-5.4-mini, і запитав, чи подасть Moonshot AI K2.7-Code на той самий бенчмарк.
Баласубраманіян зазначив, що йому знадобилося 13 раундів перегляду, щоб отримати правильні дані бенчмарку для свого маршрутизатора, і він би спрямовував завдання з кодування на K2.7-Code, якби незалежні показники виявилися достовірними.
Що це означає для підприємств
Приріст ефективності використання токенів є негайно доступним. Команди, які використовують K2.6 у виробництві, можуть замінити її на K2.7-Code через OpenAI-сумісний API та очікувати зниження витрат на висновки в агентських робочих процесах без зміни архітектури. Зменшення використання токенів для міркувань на 30% — це власний показник Moonshot, але шлях інтеграції є достатньо низькоризикованим, щоб протестувати його на власних робочих навантаженнях перед прийняттям остаточного рішення.
Практичне питання полягає в тому, чи збережеться така ефективність на власних розподілах завдань команди. Тестування K2.7-Code на власних робочих навантаженнях перед коригуванням ваг шлюзу (gateway weights) є найменш ризикованим шляхом для з’ясування цього.
Прогноз ІТ-Блогу: Очікується, що Kimi K2.7-Code стимулюватиме подальшу конкуренцію в сегменті моделей для розробки програмного забезпечення, змушуючи інших гравців, таких як OpenAI та Google DeepMind, прискорити випуск оптимізованих версій своїх флагманських моделей. Також зросте попит на прозорість у звітуванні про результати бенчмарків, що сприятиме розвитку незалежних платформ оцінки.
За даними порталу: venturebeat.com
