Anthropic випустила Claude Opus 4.7, знову захопивши лідерство серед найпотужніших доступних мовних моделей

Anthropic випустила Claude Opus 4.7, знову захопивши лідерство серед найпотужніших доступних мовних моделей 1

Компанія Anthropic представила свою найпотужнішу на сьогодні мовну модель Claude Opus 4.7. Водночас, ще потужніший наступний крок, Mythos, залишається доступним лише обмеженому колу корпоративних партнерів для тестування кібербезпеки та виправлення виявлених вразливостей програмного забезпечення.

Головні новини полягають у тому, що Opus 4.7 перевершує своїх найближчих конкурентів — GPT-5.4 від OpenAI, випущений на початку березня 2026 року, та Gemini 3.1 Pro від Google, представлений у лютому — за ключовими показниками, зокрема, в галузі автономного кодування, масштабованого використання інструментів, автономної роботи з комп’ютером та фінансового аналізу.

Однак, вражає, наскільки напруженою стає боротьба: за прямими порівняльними тестами, Opus 4.7 випереджає GPT-5.4 лише на 7-4 пункти.

Anthropic випустила Claude Opus 4.7, знову захопивши лідерство серед найпотужніших доступних мовних моделей 2

Зараз модель лідирує на ринку за показником GDPVal-AA (оцінка роботи зі знаннями) з Elo-рахунком 1753, випереджаючи GPT-5.4 (1674) та Gemini 3.1 Pro (1314).

Anthropic випустила Claude Opus 4.7, знову захопивши лідерство серед найпотужніших доступних мовних моделей 3

Проте, модель не демонструє беззаперечної перемоги в усіх категоріях. Конкуренти, такі як GPT-5.4 та Gemini 3.1 Pro, все ще випереджають її в специфічних доменах, наприклад, в агентному пошуку (GPT-5.4 — 89.3%, Opus 4.7 — 79.3%), а також у багатомовних запитаннях та відповідях і прямому кодуванні.

Таке позиціонування визначає Opus 4.7 не як одноосібного лідера у всіх завданнях ШІ, а як спеціалізований інструмент, оптимізований для надійності та довготривалої автономності, необхідних для зростаючої “агентної економіки”.

Claude Opus 4.7 доступний сьогодні на всіх основних хмарних платформах, включаючи Amazon Bedrock, Google Cloud Vertex AI та Microsoft Foundry, за API-ціною $5/$25 за мільйон токенів.

Покращення у точних науках та агентних робочих процесах

Claude Opus 4.7 є прямим розвитком архітектури Opus 4.6, але його переваги найбільш помітні у “жорстких” науках, пов’язаних з агентними робочими процесами: розробка програмного забезпечення та комплексний аналіз документів.

За своєю суттю, модель була переналаштована для демонстрації того, що Anthropic називає “ретельністю”. Це не просто маркетингова фраза; вона стосується нової здатності моделі розробляти власні кроки верифікації перед тим, як повідомити про завершення завдання. Наприклад, у внутрішніх тестах спостерігалося, як модель самостійно створювала програму для перетворення тексту на мовлення на Rust, а потім самостійно пропускала згенерований аудіофайл через окремий розпізнавач мовлення для перевірки результатів за еталоном на Python.

Такий рівень автономної самокорекції покликаний зменшити “петлі галюцинацій”, які часто трапляються у попередніх версіях агентного програмного забезпечення.

Найважливішою архітектурною модернізацією є перехід до високоякісної мультимодальної підтримки. Opus 4.7 тепер може обробляти зображення з максимальною стороною до 2 576 пікселів — це приблизно 3,75 мегапікселів. Це триразове збільшення роздільної здатності порівняно з попередніми версіями.

Для розробників, які створюють агентів для роботи з комп’ютером, що повинні навігувати щільними інтерфейсами з високою щільністю пікселів, або для аналітиків, що витягують дані з складних технічних діаграм, ця зміна фактично усуває стелю “розмитого зору”, яка раніше обмежувала автономну навігацію. Ця візуальна чіткість відображена в тестах XBOW, де показник успішності моделі у тестах на візуальну чіткість зріс з 54,5% до 98,5%.

За результатами тестів, Opus 4.7 посіла перше місце у кількох критичних категоріях:

  • Робота зі знаннями (GDPVal-AA): Модель досягла Elo-рахунку 1753, значно випередивши GPT-5.4 (1674) та Gemini 3.1 Pro (1314).

  • Автономне кодування (SWE-bench Pro): Модель виконала 64,3% завдань порівняно з 53,4% її попередника.

  • Міркування на рівні аспірантури (GPQA Diamond): Досягнуто 94,2%, що відповідає рівню найсучасніших моделей галузі, при цьому покращено внутрішню узгодженість.

  • Візуальне міркування (arXiv Reasoning): З використанням інструментів модель показала результат 91,0%, що є значним зростанням порівняно з 84,7% у Opus 4.6.

Важливо зазначити, що Anthropic попереджає: це підвищення точності вимагає зміни підходу користувачів до створення запитів. Opus 4.7 буквально дотримується інструкцій. Якщо попередні моделі могли “читати між рядків” і вільно інтерпретувати неоднозначні запити, Opus 4.7 виконує саме наданий текст. Це означає, що існуючі бібліотеки запитів можуть потребувати переналаштування, щоб уникнути неочікуваних результатів через суворе дотримання моделлю букви запиту.

Контроль над “бюджетом мислення”

Агентна природа Opus 4.7 — її схильність зупинятися, планувати та верифікувати — супроводжується компромісами у споживанні токенів та затримці. Щоб вирішити це, Anthropic запроваджує новий параметр “зусилля” (effort). Користувачі тепер можуть вибрати рівень “xhigh” (надвисокий), розташований між “high” та “max”, що дозволяє більш детально контролювати глибину міркувань, які модель застосовує до конкретної проблеми.

Внутрішні дані показують, що хоча максимальне зусилля дає найвищі показники (близько 75% у завданнях кодування), налаштування “xhigh” забезпечує привабливий компроміс між продуктивністю та витратами токенів.

Для управління витратами, пов’язаними з цими “глибшими” прогонами, API Claude запроваджує “бюджети завдань” (task budgets) у публічному бета-тестуванні. Це дозволяє розробникам встановлювати жорстку стелю витрат токенів для автономних агентів, гарантуючи, що тривала сесія налагодження не призведе до несподіваного рахунку. Ці зміни продукту сигналізують про дозрівання ринку, де ШІ стає не просто новинкою, а виробничою статтею, що вимагає фіскальних та операційних запобіжників.

Крім того, Opus 4.7 використовує оновлений токенізатор, який підвищує ефективність обробки тексту, хоча це може збільшити кількість токенів для певних входів на 1,0–1,35x.

У середовищі Claude Code оновлення приносить нову команду /ultrareview. На відміну від стандартних перевірок коду, які шукають синтаксичні помилки, /ultrareview призначена для імітації роботи старшого людського рецензента, виявляючи тонкі недоліки дизайну та логічні прогалини.

Крім того, “автоматичний режим” (auto mode) — налаштування, за якого Claude може приймати автономні рішення без постійних запитів на дозвіл — розширено для користувачів плану Max.

Ліцензування, безпека та “кібер” розрив

Anthropic продовжує балансувати на тонкій межі щодо кібербезпеки. Нещодавнє оголошення про партнерство з кібербезпеки навколо Mythos із зовнішніми галузевими партнерами, відоме як “Проєкт Glasswing”, висвітлило ризики подвійного використання високопотужних моделей. Отже, хоча флагманська модель Mythos Preview залишається обмеженою, Opus 4.7 слугує тестовим майданчиком для нових автоматизованих запобіжників. Модель містить системи, призначені для виявлення та блокування запитів, що свідчать про високоризиковані кібератаки, такі як автоматизована експлуатація вразливостей.

Щоб подолати розрив для індустрії безпеки, Anthropic запускає Програму Верифікації Кібербезпеки (Cyber Verification Program). Вона дозволяє легітимним професіоналам — дослідникам вразливостей, тестувальникам на проникнення та членам “червоних команд” — подавати заявки на доступ для використання можливостей Opus 4.7 у оборонних цілях. Ця модель “верифікованого користувача” передбачає майбутнє, де найпотужніші функції ШІ не будуть універсально доступними, а будуть доступні через професійні облікові дані та відповідність нормам.

У відтворенні вразливостей кібербезпеки (CyberGym) Opus 4.7 демонструє 73,1% успішності, поступаючись Mythos Preview (83,1%), але випереджаючи GPT-5.4 (66,3%).

Початкові відгуки від партнерів компанії виявили кількісні покращення у виробничих корпоративних робочих процесах

Ранні відгуки від корпоративних клієнтів, надані Anthropic, свідчать про відчутну зміну в сприйнятті моделі Opus 4.7 порівняно з 4.6: від “вражені технологією” до “покладаються на результат”.

Кларенс Хуанг, віцепрезидент з технологій в Intuit, зазначив, що здатність моделі “ловити власні логічні помилки на етапі планування” є ключовим фактором для підвищення швидкості роботи. Цей погляд поділяє президент Replit Мікеле Кастата, який заявив, що модель досягла вищої якості за нижчої вартості для таких завдань, як аналіз журналів та пошук помилок, додавши: “Це справді відчувається як кращий колега”.

Інші конкретні відгуки включали:

  • Cognition (Devin): CEO Скотт Ву повідомив, що Opus 4.7 може працювати злагоджено “годинами” і долає складні проблеми, які раніше ставили моделі в глухий кут.

  • Notion: AI-лід Сара Сакс відзначила 14% покращення у багатоетапних робочих процесах та 66% зменшення помилок при виклику інструментів, завдяки чому агент відчувається як “справжній товариш по команді”.

  • Factory Droids: Лео Тчураков зауважив, що модель доводить роботу до етапів валідації, а не “зупиняється на півдорозі”, що було типовою скаргою на попередні передові моделі.

  • Harvey: Ніко Групен, керівник відділу прикладних досліджень, відзначив 90,9% показник моделі на BigLaw Bench, підкресливши її “помітно розумніше поводження з неоднозначними завданнями редагування документів”.

Ймовірно, найпоказовішою реакцією була від Адж Орбаха, CEO компанії, що створює дашборди, який відзначив “дизайнерський смак” моделі, зауваживши, що її вибір для багатих на дані інтерфейсів був якості, яку він “дійсно міг би впровадити”.

Чи варто підприємствам негайно оновлюватися до Opus 4.7?

Для керівників підприємств Claude Opus 4.7 — це перехід від генеративного ШІ як “творчого помічника” до “надійного оператора”. Але важливо, це не “чиста перемога” для кожного варіанту використання.

Натомість, це вирішальне оновлення для команд, що створюють автономних агентів або складні програмні системи. Основна ціннісна пропозиція — це нова здатність моделі до самоперевірки та ретельності; вона більше не просто генерує відповідь, а створює внутрішні тести для перевірки правильності відповіді перед її наданням. Ця надійність робить її кращим вибором для довготривалих інженерних завдань, де вартість людського нагляду є основним обмежувальним фактором.

Однак, негайна, повна міграція з Opus 4.6 вимагає обережності. Підвищена буквальність моделі у виконанні інструкцій означає, що запити, створені для “вільного” або розмовного стилю з попередніми версіями, тепер можуть давати неочікувані або надто жорсткі результати.

Крім того, підприємства повинні готуватися до значного зростання операційних витрат. Opus 4.7 використовує оновлений токенізатор, який може збільшити кількість вхідних токенів на 1,0–1,35x, а її схильність “думати глибше” при високому рівні зусиль призводить до вищої витрати вихідних токенів. Для застарілих додатків, де запити є крихкими, а маржа мінімальна, рекомендується поетапне розгортання зі значним переналаштуванням.

Де це ставить Anthropic у гонці ШІ

Цей реліз з’являється в парадоксальний момент для Anthropic. Фінансово компанія є беззаперечним гігантом: венчурні фонди, за повідомленнями, висувають інвестиційні пропозиції за вражаючою оцінкою в 800 мільярдів доларів — це більш ніж удвічі перевищує її оцінку Series G у 380 мільярдів доларів від лютого 2026 року. Цей імпульс підживлюється вибуховим зростанням, річна виручка компанії стрімко зросла до 30 мільярдів доларів у квітні 2026 року, значною мірою завдяки корпоративному впровадженню та успіху Claude Code.

Однак, цей комерційний успіх оскаржується інтенсивним регуляторним та технічним тертям. Anthropic зараз залучена у висококласну судову справу з Міністерством оборони США (DoW), яке нещодавно класифікувало компанію як “ризик ланцюга поставок” після того, як Anthropic відмовилася дозволити використання своїх моделей для масового спостереження або повністю автономної летальної зброї. Хоча суддя в Сан-Франциско спочатку заблокував це рішення, федеральна апеляційна колегія нещодавно відхилила прохання Anthropic про призупинення чорного списку, залишивши компанію виключеною з прибуткових оборонних контрактів під час активного військового конфлікту.

Одночасно Anthropic відбивається від зростаючого бунту серед своїх найвідданіших потужних користувачів. Незважаючи на статус компанії як “лідера ринку”, розробники наповнили GitHub та X звинуваченнями в “ШІ-фрінджфлейшн” (AI shrinkflation), стверджуючи, що попередні моделі Opus 4.6 та продукт Claude Code були приховано деградовані. Користувачі повідомляють, що останні версії більш схильні до циклів дослідження, втрати пам’яті та ігнорування інструкцій, що спонукало деяких описати нещодавно випущений настільний додаток Claude Code як “необроблений” і негідний компанії з майже трильйонною оцінкою. Opus 4.7 — це спроба Anthropic заспокоїти цих критиків, довівши, що “глибоке мислення” може поєднуватися з ретельним виконанням, якого тепер вимагають її корпоративні клієнти.

Зрештою, Opus 4.7 — це модель, визначена своєю дисципліною. На ринку, де моделі часто спонукаються бути “корисними” до надмірності — іноді вигадуючи відповіді, щоб догодити користувачеві — Opus 4.7 знаменує повернення до ретельності. Дозволяючи користувачам контролювати зусилля, встановлювати бюджети та перевіряти результати, Anthropic наближається до мети створення справді автономної цифрової робочої сили. Для інженерних команд у Replit, Notion та інших компаніях, перехід від “спостереження за роботою ШІ” до “управління результатами роботи ШІ” офіційно розпочався.

Прогноз ІТ-Блогу: У найближчі 1-2 роки ми побачимо поглиблення спеціалізації потужних мовних моделей, подібних до Opus 4.7, з акцентом на галузеву точність та етичні механізми контролю. Також очікується зростання попиту на послуги верифікації доступу до найсучасніших ШІ-систем.

Подробиці можна знайти на сайті: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *