Розкрито таємницю: Anthropic пояснює, чому покращення Claude призвели до зниження продуктивності

Розкрито таємницю: Anthropic пояснює, чому покращення Claude призвели до зниження продуктивності 1

Протягом кількох тижнів зростала кількість розробників та активних користувачів штучного інтелекту, які стверджували, що флагманські моделі Anthropic втрачають свою перевагу. Користувачі на платформах GitHub, X та Reddit повідомляли про явище, яке вони описували як “AI shrinkflation” — відчутне погіршення, коли Claude, здавалося, був менш здатний до послідовного мислення, частіше генерував помилкові дані (галюцинації) та ставав все більш марнотратним щодо використання токенів.

Критики вказували на вимірні зміни в поведінці, стверджуючи, що модель перейшла від підходу “спочатку дослідження” до більш лінивого стилю “спочатку редагування”, якому вже не можна було довіряти для вирішення складних інженерних завдань.

Хоча компанія спочатку заперечувала заяви про “приглушення” моделі для управління попитом, наростаюча кількість доказів від відомих користувачів та сторонніх тестів створила значний розрив у довірі.

Сьогодні Anthropic безпосередньо звернулася до цих занепокоєнь, опублікувавши технічний аналіз, який виявив три окремі зміни на рівні продукту, відповідальні за повідомлені проблеми з якістю.

“Ми дуже серйозно ставимося до повідомлень про погіршення якості”, — йдеться у повідомленні Anthropic у блозі щодо цього питання. “Ми ніколи навмисно не погіршуємо наші моделі, і нам вдалося негайно підтвердити, що наш API та шар інференсу не постраждали.”

Anthropic стверджує, що вирішила проблеми, скасувавши зміну рівня мислення та системний запит щодо стислості, одночасно виправивши помилку кешування у версії v2.1.116.

Наростаючі докази погіршення якості

Суперечка набула обертів на початку квітня 2026 року, підживлювана детальними технічними аналізами від спільноти розробників. Стелла Лоренцо, старший директор групи AI компанії AMD, опублікувала вичерпний аудит 6 852 файлів сесій Claude Code та понад 234 000 викликів інструментів на GitHub, який продемонстрував падіння продуктивності порівняно з її попереднім використанням.

Її висновки свідчили про різке падіння глибини мислення Claude, що призводило до циклів міркувань та схильності вибирати “найпростіше рішення”, а не правильне.

Це суб’єктивне розчарування, здавалося, було підтверджено сторонніми бенчмарками. BridgeMind повідомив, що точність Claude Opus 4.6 в їхніх тестах впала з 83,3% до 68,3%, що спричинило падіння його рейтингу з №2 до №10.

Хоча деякі дослідники стверджували, що ці конкретні порівняння бенчмарків були недосконалими через неузгодженість обсягів тестування, наратив про те, що Claude став “дурнішим”, став вірусним. Користувачі також повідомляли, що ліміти використання вичерпувалися швидше, ніж очікувалося, що викликало підозри, ніби Anthropic навмисно обмежувала продуктивність для управління стрімким попитом.

Причини

У своєму дописі в блозі з аналізом причин Anthropic пояснила, що хоча базові ваги моделі не регресували, три конкретні зміни в “оболонці”, що оточувала моделі, ненавмисно погіршили їхню продуктивність:

  • Рівень мислення за замовчуванням: 4 березня Anthropic змінив рівень мислення за замовчуванням з високого на середній для Claude Code, щоб вирішити проблеми із затримкою інтерфейсу користувача. Ця зміна мала на меті запобігти “зависанню” інтерфейсу під час роботи моделі, але призвела до помітного зниження інтелектуальних можливостей при складних завданнях.

  • Помилка логіки кешування: 26 березня було впроваджено оптимізацію кешування, призначену для очищення старого “мислення” з неактивних сесій, яка містила критичну помилку. Замість того, щоб очищати історію мислення один раз після години бездіяльності, вона очищала його при кожному наступному запиті, через що модель втрачала “короткострокову пам’ять” і ставала повторюваною або забудькуватою.

  • Обмеження стислості системного запиту: 16 квітня Anthropic додала інструкції до системного запиту, щоб обмежити текст між викликами інструментів до 25 слів, а остаточні відповіді — до 100 слів. Ця спроба зменшити багатослівність у Opus 4.7 мала зворотний ефект, спричинивши 3% падіння оцінок якості коду.

Вплив та майбутні запобіжники

Проблеми з якістю поширилися за межі Claude Code CLI, вплинувши на Claude Agent SDK та Claude Cowork, хоча Claude API не постраждав.

Anthropic визнала, що ці зміни змусили модель здаватися “менш інтелектуальною”, що, як вони визнали, не є тим досвідом, якого очікують користувачі.

Щоб відновити довіру користувачів та запобігти майбутнім регресіям, Anthropic впроваджує кілька операційних змін:

  • Внутрішнє тестування (Dogfooding): Більша частка внутрішнього персоналу буде зобов’язана використовувати точні публічні збірки Claude Code, щоб гарантувати, що вони відчувають продукт так само, як і користувачі.

  • Розширені набори оцінки: Компанія тепер буде проводити ширший набір оцінок для кожної моделі та “аблацій” (тестування окремих компонентів) для кожної зміни системного запиту, щоб ізолювати вплив конкретних інструкцій.

  • Суворіший контроль: Були розроблені нові інструменти для полегшення аудиту змін запитів, а зміни, специфічні для моделі, будуть суворо контролюватися для їх цільового застосування.

  • Компенсація для абонентів: Для врахування марнотратства токенів та зниження продуктивності, спричинених цими помилками, Anthropic відновила ліміти використання для всіх абонентів станом на 23 квітня.

Компанія має намір використовувати свій новий обліковий запис @ClaudeDevs на X та теми на GitHub для надання глибших пояснень майбутніх рішень щодо продуктів та підтримки більш прозорого діалогу зі своєю базою розробників.

Прогноз ІТ-Блогу: Anthropic, ймовірно, впровадить більш надійні процеси тестування та моніторингу, щоб уникнути подібних інцидентів у майбутньому. Це може призвести до уповільнення, але одночасно підвищить стабільність та надійність їхніх моделей, зміцнюючи довіру в довгостроковій перспективі.

Оригінал статті: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *