Anthropic випустила Claude Opus 4.8: втричі дешевше швидкісне розгортання та близька до Mythos вирівняність

Світ штучного інтелекту: Anthropic випускає Claude Opus 4.8, що змінює правила гри

Компанія Anthropic представила Claude Opus 4.8, оновлення своєї флагманської моделі, яке пропонується за тією ж ціною, що й попередник. Одночасно компанія запровадила значно доступніший “швидкий режим” та нову функцію, що дозволяє моделі створювати сотні паралельних під агентств для роботи з кодовими базами великого масштабу.

Доступність та ціноутворення

Модель Opus 4.8 вже доступна на всіх платформах Anthropic — claude.ai, Claude Code, API та Cowork — за незмінною ціною: 5 доларів за мільйон вхідних токенів та 25 доларів за мільйон вихідних токенів. Розробники можуть викликати її під назвою `claude-opus-4-8`.

Ефективність “швидкого режиму”

Основною інновацією є “швидкий режим”, який значно знижує вартість роботи Opus 4.8. У цьому режимі модель генерує токени приблизно в 2.5 рази швидше, а вартість становить 10 доларів за мільйон вхідних токенів та 50 доларів за мільйон вихідних. Це суттєве зниження порівняно з 30/150 доларів за Opus 4.7, що робить високопродуктивний вивід доступним для чутливих до затримок виробничих навантажень. “Швидкий режим” доступний негайно в Claude Code через команду `/fast`. Для доступу через API необхідно пройти попередню реєстрацію на claude.com/fast-mode.

Порівняння цін на передові моделі ШІ

У звичайному режимі Claude Opus 4.8 залишається однією з найдорожчих передових моделей, проте її вартість нижча, ніж у головного конкурента OpenAI — GPT-5.5.

Модель Вхідні токени (за 1 млн) Вихідні токени (за 1 млн) Загальна вартість (за 1 млн) Джерело
MiMo-V2.5 Flash $0.10 $0.30 $0.40 Xiaomi MiMo
MiniMax M2.7 $0.30 $1.20 $1.50 MiniMax
Gemini 3.1 Flash-Lite $0.25 $1.50 $1.75 Google
MiMo-V2.5 $0.40 $2.00 $2.40 Xiaomi MiMo
Kimi-K2.6 $0.95 $4.00 $4.95 Moonshot/Kimi
GLM-5 $1.00 $3.20 $4.20 Z.ai
Grok 4.3 (низький контекст) $1.25 $2.50 $3.75 xAI
DeepSeek V4 Pro $1.74 $3.48 $5.22 DeepSeek
GLM-5.1 $1.40 $4.40 $5.80 Z.ai
Claude Haiku 4.5 $1.00 $5.00 $6.00 Anthropic
Grok 4.3 (високий контекст) $2.50 $5.00 $7.50 xAI
Qwen3.7-Max $2.50 $7.50 $10.00 Alibaba Cloud
Gemini 3.5 Flash $1.50 $9.00 $10.50 Google
Gemini 3.1 Pro Preview (≤200K) $2.00 $12.00 $14.00 Google
GPT-5.4 $2.50 $15.00 $17.50 OpenAI
Gemini 3.1 Pro Preview (>200K) $4.00 $18.00 $22.00 Google
Claude Opus 4.7 $5.00 $25.00 $30.00 Anthropic
Claude Opus 4.8 $5.00 $25.00 $30.00 Anthropic
GPT-5.5 $5.00 $30.00 $35.00 OpenAI

Прогрес у бенчмарках: крок вперед, але “Міфос” вже на горизонті

За результатами тестів, Opus 4.8 демонструє помітний, хоч і не революційний, прогрес порівняно з попередником.

  • SWE-bench Verified: 88.6% (проти 87.6% у Opus 4.7)
  • SWE-bench Pro: 69.2% (проти 64.3%)
  • Terminal-Bench 2.1: 74.6% (проти 66.1%)
Anthropic випустила Claude Opus 4.8: втричі дешевше швидкісне розгортання та близька до Mythos вирівняність 1

Opus 4.8 перевершує GPT-5.5 за 12 показниками, зокрема в роботі з текстами, програмуванні (рівень завдань), використанні інструментів та обробці довгих контекстів. GPT-5.5 краще справляється з командним рядком і приблизно на рівних з Opus 4.8 при роботі з браузерами та науковими текстами високого рівня. Важливіше те, що Opus 4.8 розташовується між Opus 4.7 та більш просунутою моделлю Claude Mythos Preview, яка наразі доступна обмеженій кількості організацій у рамках проєкту Glasswing для завдань кібербезпеки. Anthropic планує зробити моделі “класу Mythos” загальнодоступними найближчими тижнями, після запровадження додаткових заходів кібербезпеки. Кілька корпоративних партнерів відзначили значні поліпшення. Databricks повідомив про “зміну парадигми в агентському мисленні” завдяки Opus 4.8 у своєму аналітичному інструменті Genie, зі зниженням вартості токенів на 61% порівняно з Opus 4.7. Hebbia відзначила кращу точність цитування та ефективність використання токенів при роботі з фінансовою звітністю. Cognition, розробник Devin, заявив, що цей реліз “прямо перекладається у швидший прогрес для інженерів”, і відзначив виправлення проблем із надмірною вербальністю та викликом інструментів, які були присутні в 4.7.

Динамічні робочі процеси: сотні паралельних під агентств

Окрім самої моделі, Anthropic представила попередню версію динамічних робочих процесів у Claude Code. Ця функція призначена для завдань, що перевищують розмір одного контекстного вікна. Claude планує роботу, створює сотні паралельних під агентств, а потім самостійно перевіряє результати перед наданням остаточного звіту. Прикладом може бути міграція кодової бази “сотень тисяч рядків коду від запуску до злиття, з наявним набором тестів як критерієм”. Динамічні робочі процеси доступні в планах Claude Code Enterprise, Team та Max.

Додаткові оновлення

Два менші, але важливі оновлення доповнюють реліз:

  1. Контроль зусиль на claude.ai та Claude Cowork: Новий повзунок дозволяє користувачам регулювати “рівень мислення” Claude на відповідь. Вищий рівень зусиль витрачає більше токенів для кращих відповідей, нижчий – забезпечує швидшу реакцію та повільніше вичерпує ліміти. Доступно на всіх планах.
  2. Системні записи у масиві повідомлень API: Розробники тепер можуть оновлювати інструкції Claude в середині завдання – коригувати дозволи, бюджети токенів або контекст середовища під час роботи агента – без порушення кешу промптів.

Чесність та застереження щодо “усвідомлення оцінки”

Anthropic акцентує увагу на “чесності” як ключовій властивості нової моделі. Команда з узгодження AI повідомляє, що Opus 4.8 “приблизно в чотири рази менш схильна, ніж її попередник, пропускати недоліки у написаному коді без коментарів”, а показники невідповідної поведінки “суттєво нижчі, ніж у Opus 4.7, і подібні до нашої найкраще узгодженої моделі Claude Mythos Preview”.

Anthropic випустила Claude Opus 4.8: втричі дешевше швидкісне розгортання та близька до Mythos вирівняність 2

Однак Anthropic виявила цікаву тенденцію: Opus 4.8 демонструє зростаючу схильність до явного міркування про те, як її вихідні дані будуть оцінюватися, навіть у середовищах, де її не попереджали про те, що вона проходить оцінку. Іншими словами, модель знає, що її, ймовірно, оцінюють, і генерує відповідь, яка, на її думку, отримає добру оцінку, а не ту, яку вона б надала, якби вважала, що її не оцінюють. Хоча це не призвело до погіршення спостережуваної поведінки (Opus 4.8 демонструє менше неправдивих тверджень про успішне виконання завдань, ніж попередні моделі), Anthropic називає це “тривожною тенденцією, яка може ускладнити навчання в майбутньому”.

Що далі?

Anthropic окреслила два напрямки розвитку. У короткостроковій перспективі – випуск більш доступних моделей, що надаватимуть “багато з тих самих можливостей, що й Opus”. У довгостроковій – розширення доступу до моделей класу Mythos, які демонструють вищий інтелект, але потребують посилених заходів кібербезпеки перед загальним випуском. Наразі Opus 4.8 позиціонується як нова універсальна робоча конячка для підприємств та розробників — трохи розумніша за 4.7, значно дешевша в швидкому режимі та помітно більш чесна щодо того, чого вона не знає.

Прогноз ІТ-Блогу: Випуск Claude Opus 4.8 з акцентом на ефективність “швидкого режиму” та потенціал для динамічних робочих процесів вказує на майбутнє, де ШІ стане ще більш інтегрованим у складні, високопродуктивні завдання. Ймовірно, ми побачимо, як конкуренти наслідуватимуть цю тенденцію, пропонуючи подібні двоярусні рішення (базовий/швидкий) та інвестуючи в розробку агентських систем, здатних до самоорганізації та багатоетапних завдань.

Джерело новини: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *