Чи “приглушує” Anthropic свою модель Claude? Користувачі все частіше скаржаться на падіння продуктивності, поки керівництво заперечує

Дедалі більша кількість розробників та досвідчених користувачів штучного інтелекту (ШІ) висловлюють у соціальних мережах претензії до компанії Anthropic, стверджуючи, що продуктивність їхніх флагманських моделей Claude Opus 4.6 та Claude Code була навмисно знижена або ж це стало наслідком обмежень обчислювальних потужностей. За їхніми словами, ці моделі відчуваються менш потужними, менш надійними та більш марнотратними щодо використання токенів, ніж ще кілька тижнів тому.

Скарги швидко поширилися на платформах Github, X та Reddit протягом останніх кількох тижнів. У багатьох популярних публікаціях стверджується, що Claude став гірше справлятися зі складними міркуваннями, частіше покидає завдання на півдорозі та схильний до галюцинацій чи суперечностей.

Деякі користувачі називають це явище “стисненням ШІ” (AI shrinkflation) — ідеєю, що клієнти платять ту саму ціну за менш якісний продукт.

Інші пішли далі, припускаючи, що Anthropic може обмежувати або змінювати роботу Claude на пониження під час періодів високого попиту.

Ці твердження залишаються недоведеними, а співробітники Anthropic публічно заперечують, що компанія знижує ефективність моделей для управління потужностями. Водночас Anthropic визнала реальні зміни в лімітах використання та налаштуваннях міркувань протягом останніх тижнів, що зробило ширшу дискусію ще більш палкою.

Видання VentureBeat звернулося до Anthropic за додатковими роз’ясненнями щодо нещодавніх звинувачень, зокрема, чи могли будь-які зміни в налаштуваннях міркувань, обробці контексту, поведінці обмеження потужностей, параметрах виведення чи методології бенчмаркінгу пояснити сплеск скарг.

Ми також запитали, як Anthropic пояснює нещодавні заяви, пов’язані з бенчмаркінгом, і чи планує компанія опублікувати додаткові дані, які могли б заспокоїти клієнтів. На момент публікації відповіді ми ще очікуємо.

Вірусні скарги користувачів, включно з представником AMD, стверджують, що Claude став менш потужним

Одна з найдетальніших публічних скарг з’явилася як проблема на GitHub від Стелли Лоренцо 2 квітня 2026 року. Її профіль у LinkedIn вказує, що вона є старшим директором у групі ШІ компанії AMD.

У цій публікації Лоренцо зазначила, що Claude Code деградував до такого ступеня, що йому не можна довіряти складну інженерну роботу. Вона підтвердила це твердження розгорнутим аналізом 6 852 файлів сесій Claude Code, 17 871 блоку міркувань та 234 760 викликів інструментів.

У скарзі стверджувалося, що, починаючи з лютого, глибина міркувань Claude різко зменшилася, тоді як ознаки погіршення продуктивності зросли, зокрема, частіше припинення роботи, частіша поведінка “найпростіше виправлення”, частіші цикли міркувань та вимірний зсув від стратегії “спочатку дослідження” до “спочатку редагування”.

Основна думка цієї публікації полягала в тому, що для передових інженерних робочих процесів розширені міркування є не розкішшю, а частиною того, що робить модель придатною для використання.

Ця гілка на GitHub потім переросла в ширшу розмову в соціальних мережах. Користувачі X, зокрема @Hesamation, опублікували скріншоти публікації Лоренцо з GitHub у X 11 квітня, перетворивши її на ще більш вірусну тему.

Таке поширення мало значення, оскільки воно надало загальному наративу “Claude стає гіршим” щось більш конкретне, ніж суб’єктивне розчарування: довгу, насичену даними публікацію від провідного фахівця з ШІ великої компанії-виробника мікросхем, який стверджує, що регресія була помітна в логах, шаблонах використання інструментів та виправленнях користувачів, а не лише в інтуїції.

Публічна відповідь Anthropic зосередилася на розмежуванні сприйнятих змін від фактичної деградації моделі. У закріпленому дописі в тій самій проблемі на GitHub, опублікованому тиждень тому, керівник Claude Code Борис Черній подякував Лоренцо за ретельність та глибину аналізу, але заперечив його головний висновок.

Черній заявив, що заголовок “redact-thinking-2026-02-12”, на який посилається скарга, є зміною лише на рівні інтерфейсу користувача, яка приховує міркування з інтерфейсу та зменшує затримку, але “не впливає на саме мислення”, “бюджети мислення” або те, як розширені міркування працюють під капотом.

Він також зазначив, що дві інші зміни продукту, ймовірно, вплинули на те, що бачили користувачі: перехід Opus 4.6 на адаптивне мислення за замовчуванням 9 лютого та зміна 3 березня на середні зусилля, або рівень зусиль 85, як значення за замовчуванням для Opus 4.6. Він додав, що Anthropic вважає це найкращим балансом між інтелектом, затримкою та вартістю для більшості користувачів.

Черній додав, що користувачі, які бажають більш розширених міркувань, можуть вручну встановити вищий рівень зусиль, набравши /effort high у термінальних сесіях Claude Code.

Цей обмін думками торкається суті суперечки. Критики, як-от Лоренцо, стверджують, що поведінка Claude в вимогливих завданнях з програмування явно погіршилася, і наводять логи та патерни використання як доказ.

Anthropic, навпаки, не стверджує, що нічого не змінилося. Вони кажуть, що найбільші нещодавні зміни були вибором продукту та інтерфейсу, які впливають на те, що бачать користувачі, і на те, скільки зусиль система витрачає за замовчуванням, а не таємне зниження якості базової моделі. Це розмежування може бути технічно важливим, але для досвідчених користувачів, які відчувають, що продукт дає гірші результати, це не обов’язково задовільно.

Публікації від зовнішніх видань, таких як TechRadar та PC Gamer, ще більше посилили пост Лоренцо та ширшу хвилю згоди з боку деяких досвідчених користувачів.

Інший вірусний пост у X від розробника Ома Пателя 7 квітня виклав той самий аргумент ще більш прямо, стверджуючи, що хтось “насправді виміряв”, наскільки “тупішим” став Claude, і резюмував результат як 67% падіння.

Цей пост допоміг популяризувати термін “AI shrinkflation” і вивів суперечку за межі вузького кола користувачів Claude Code до ширшого дискурсу ШІ в X.

Ці твердження резонують, тому що вони тісно відповідають тому, що бачать багато розчарованих користувачів на практиці: більше незавершених завдань, більше відкатів, більше витрати токенів та сильне відчуття, що Claude менш схильний глибоко міркувати над складними завданнями з програмування, ніж на початку цього року.

Публікації з бенчмарками перетворили суб’єктивне розчарування на публічну суперечку

Найгучнішою заявою, заснованою на бенчмарках, була від BridgeMind, яка проводить бенчмарк з виявлення галюцинацій BridgeBench. 12 квітня обліковий запис опублікував, що Claude Opus 4.6 впав з 83,3% точності та № 2 у попередньому результаті до 68,3% точності та № 10 у новому повторному тестуванні, назвавши це доказом того, що “Claude Opus 4.6 був зіпсований” (“nerfed”).

Ця публікація широко розійшлася і стала одним із головних якорі для ширшої публічної справи, яка стверджувала, що Anthropic погіршила модель.

Інші користувачі також поширювали публікації, пов’язані з бенчмарками або тестами, які свідчили про те, що Opus 4.6 поступається Opus 4.5 у практичних завданнях програмування.

Ще інші публікації вказували на результати TerminalBench як на нібито доказ того, що поведінка моделі змінилася в певних тестах або контекстах продукту.

Ефект був кумулятивним: скріншоти бенчмарків, порівняння “пліч-о-пліч” та суб’єктивні скарги почали підсилювати один одного на публіці.

Це важливо, тому що заяви на основі бенчмарків зазвичай поширюються далі, ніж більш суб’єктивні скарги. Розробник, який каже, що модель “відчувається гіршою”, — це одне. Скріншот, що показує падіння рейтингу з № 2 до № 10, або драматичний відсотковий зсув у точності, створює враження жорсткого доказу, навіть коли базове порівняння може бути більш складним.

Критики заяв щодо бенчмарків стверджують, що докази слабші, ніж здаються

Найважливіше спростування заяви BridgeBench надійшло не від Anthropic. Воно надійшло від Пола Калкрафта, незалежного дослідника програмного забезпечення та ШІ в X, який стверджував, що вірусне порівняння було оманливим, оскільки попередній результат Opus 4.6 базувався лише на шести завданнях, тоді як пізніший — на 30.

За його словами, це був “РІЗНИЙ БЕНЧМАРК”. Він також зазначив, що на шести спільних завданнях обох тестів оцінка Claude змінилася лише незначно, з 87,6% раніше до 85,4% у пізнішому тестуванні, і що більший зсув, здавалося, походив переважно від одного результату вигадки без повторень. Він охарактеризував це як щось, що легко може потрапити в межі звичайного статистичного шуму.

Це зовнішнє спростування має значення, оскільки воно підриває одну з найчіткіших і найвірусніших заяв, що циркулюють. Це не доводить, що користувачі помиляються, думаючи, що щось змінилося. Але це свідчить про те, що принаймні деякі докази з бенчмарків, які зараз рухають історію, можуть бути перебільшеними, погано нормалізованими або непрямо порівнюваними.

Навіть сама публікація BridgeBench отримала схожий примітку від спільноти. У примітці зазначено, що два тести бенчмарку охоплювали різні діапазони — шість завдань в одному випадку і 30 в іншому — і що підмножина спільних завдань показала лише незначну зміну. Це не робить пізніший результат неважливим, але послаблює найсильнішу версію аргументу “BridgeBench це довів”.

Це тепер ключова особливість суперечки: заяви не всі однаково сильні. Деякі ґрунтуються на досвіді користувачів з перших рук. Деякі вказують на реальні зміни в продукті. Деякі спираються на порівняння бенчмарків, які можуть бути нерівноцінними. А деякі залежать від висновків про приховану поведінку системи, яку користувачі за межами Anthropic не можуть безпосередньо перевірити.

Попередні обмеження потужностей дали користувачам підставу підозрювати подальші зміни під капотом

Поточний шквал критики також відбувається на тлі реальної, підтвердженої зміни політики Anthropic з кінця березня. 26 березня технічний співробітник Anthropic Тарік Шіхіпар опублікував, що “для управління зростаючим попитом на Claude” компанія коригує роботу 5-годинних лімітів сесій для безкоштовних, Pro та Max підписників у пікові години, зберігаючи при цьому тижневі ліміти без змін.

Він додав, що протягом будніх днів з 5 до 11 ранку за тихоокеанським часом користувачі будуть швидше вичерпувати свої 5-годинні ліміти сесій, ніж раніше. У подальших дописах він зазначив, що Anthropic досягла ефективних перемог, щоб компенсувати частину впливу, але приблизно 7% користувачів зіткнуться з лімітами сесій, яких вони раніше не зустрічали, особливо на рівнях Pro.

В електронному листі від 27 березня 2026 року Anthropic повідомила VentureBeat, що клієнти Team та Enterprise не постраждали від цих змін, і що зміна не оптимізувалася динамічно для кожного користувача, а застосовувалася до вікна пікових годин, описаного компанією публічно. Anthropic також заявила, що продовжує інвестувати в масштабування потужностей.

Ці коментарі стосувалися лімітів сесій, а не зниження якості моделей. Але вони є важливим контекстом, оскільки вони встановлюють дві речі, які користувачі зараз пов’язують на публіці: по-перше, Anthropic стикається зі стрімким зростанням попиту; по-друге, вона вже змінювала спосіб розподілу використання в періоди пікового навантаження. Це не доводить, що Anthropic знизила якість моделі. Але це допомагає пояснити, чому так багато користувачів готові вірити, що щось інше також могло змінитися.

Кешування підказок та TTL

Окрема, більш пізня проблема на GitHub розширює суперечку за межі якості моделі до поведінки щодо ціноутворення та квот. У проблемі #46829 користувач seanGSISG стверджував, що час життя (TTL) кешу підказок Claude Code, схоже, змінився з одногодинної настройки назад до п’ятихвилинної на початку березня, виходячи з аналізу майже 120 000 викликів API з логів сесій Claude Code на двох машинах.

У скарзі стверджується, що ця зміна призвела до значного зростання витрат на створення кешу та витрати квот, особливо для тривалих сесій програмування, де кешований контекст швидко закінчується і його потрібно відновлювати. Автор стверджує, що це допомагає пояснити, чому деякі користувачі підписок почали досягати лімітів використання, яких вони раніше не стикалися.

Що робить цю проблему помітною, так це те, що Anthropic не відразу заперечила, що щось змінилося. У відповіді на гілці Джаред Самнер заявив, що зміна від 6 березня була реальною та навмисною, але відкинув формулювання, що це була регресія. Він сказав, що Claude Code використовує різні тривалості кешу для різних типів запитів, і що одногодинний кеш не завжди дешевший, оскільки запис одногодинного кешу коштує дорожче на початковому етапі і економить гроші лише тоді, коли той самий кешований контекст використовується достатню кількість разів, щоб це виправдати.

За його словами, зміна була частиною постійної роботи з оптимізації кешу, а не прихованим зниженням якості, і поведінка до 6 березня, описана в проблемі, “не була бажаним стабільним станом”.

Згодом гілка отримала більш детальну відповідь від Чернія з Anthropic, який описав одногодинне кешування як “нюансоване” і сказав, що компанія тестує евристику для покращення показників влучень кешу, використання токенів та затримки для підписників. Черній зазначив, що Claude Code використовує п’ятихвилинний кеш для багатьох запитів, включаючи субагенти, які рідко відновлюються, і сказав, що вимкнення телеметрії також вимикає експериментальні ворота, що може призвести до повернення Claude Code до п’ятихвилинного значення за замовчуванням у деяких випадках.

Він додав, що Anthropic планує надати змінні середовища, які дозволять користувачам безпосередньо примусово встановлювати одногодинний або п’ятихвилинний кеш. Разом ці відповіді не підтверджують твердження автора проблеми про те, що Anthropic мовчки зробила Claude Code дорожчим загалом, але вони підтверджують, що Anthropic активно експериментує з поведінкою кешу за лаштунками протягом того самого періоду, коли користувачі почали голосніше скаржитися на витрату квот та зміни в поведінці продукту.

Anthropic стверджує, що зміни, видимі користувачам, а не таємне зниження якості, пояснюють більшу частину обурення

Співробітники, пов’язані з Anthropic, публічно виступили проти найширших звинувачень. В одній широко розповсюдженій відповіді в X Черній відповів на твердження, що Anthropic таємно знизила якість Claude Code, написавши: “Це неправда”.

Він заявив, що Claude Code за замовчуванням використовує середні зусилля у відповідь на відгуки користувачів про те, що Claude споживає надто багато токенів, і що ця зміна була розкрита як у журналі змін, так і в діалоговому вікні, показаному користувачам при відкритті Claude Code.

Ця відповідь примітна тим, що вона визнає значну зміну в продукті, відкидаючи більш конспірологічну інтерпретацію. Anthropic не стверджує, що нічого не змінилося. Вони кажуть, що те, що змінилося, *було* розкрито і було спрямоване на збалансування використання токенів, а не на таємне зниження якості моделі.

Публічна документація також підтверджує, що зміни в налаштуваннях зусиль були впроваджені. У журналі змін Claude Code зазначено, що 7 квітня Anthropic змінила рівень зусиль за замовчуванням з середнього на високий для користувачів API, а також для користувачів Bedrock, Vertex, Foundry, Team та Enterprise.

Це свідчить про те, що Anthropic активно налаштовувала ці параметри для різних сегментів, що могло б вплинути на сприйняття користувачів, навіть якщо базові ваги моделі не змінилися.

Шіхіпар також прямо заперечив ширші звинувачення щодо управління попитом. У відповіді в X від 11 квітня він заявив, що Anthropic не “знижує” якість своїх моделей для кращого задоволення попиту. Він також зазначив, що зміни в підсумках міркувань вплинули на те, як деякі користувачі вимірювали “мислення” Claude, і що компанія не знайшла доказів, що підтверджують найсильніші якісні заяви, які зараз поширюються в Інтернеті.

Реальна проблема, можливо, полягає в довірі, а не лише в якості моделі

Що є зрозумілим, так це те, що між Anthropic та деякими з її найбільш вимогливих користувачів виникла прірва недовіри.

Для розробників, які щодня покладаються на Claude Code, незначні зміни у видимому виведенні міркувань, налаштуваннях зусиль, витраті токенів, компромісах затримки чи лімітах використання можуть відчуватися як невідмінні від роботи зі слабшою моделлю.

Це справедливо незалежно від того, чи є першопричиною налаштування продукту, зміна інтерфейсу, коригування політики виведення, тиск щодо потужностей чи справжня регресія якості.

Це також означає, що обидві сторони конфлікту можуть говорити одна повз одну. Користувачі описують те, що вони відчувають: більше перешкод, більше невдач і менше впевненості. Anthropic відповідає з точки зору продукту: налаштування зусиль, приховані підсумки міркувань, розкриття інформації в журналах змін та заперечення того, що тиск попиту спричиняє таємне зниження якості моделі.

Це не обов’язково несумісні описи. Модель може відчуватися гіршою для користувачів, навіть якщо компанія вважає, що вона не “зіпсувала” базову модель так, як стверджують критики. Але в той час, коли головний конкурент Anthropic, OpenAI, нещодавно змінив курс і спрямував більше ресурсів на свій конкурентний продукт Codex, орієнтований на підприємства та розробку коду, навіть пропонуючи нову, більш середнього класу підписку ChatGPT, щоб стимулювати використання цього інструменту, це, безумовно, не та реклама, яка принесе користь Anthropic або її утриманню клієнтів.

Водночас, публічні докази залишаються неоднозначними. Деякі з найвірусніших тверджень походять від розробників з детальними логами та твердими думками, заснованими на багаторазовому використанні. Деякі докази з бенчмарків були оскаржені зовнішніми спостерігачами з методологічних причин. А нещодавні зміни Anthropic щодо лімітів та налаштувань гарантують, що ця дискусія відбувається на тлі реальних коригувань, а не суцільних чуток.

Прогноз ІТ-Блогу: Ймовірно, Anthropic надасть більше прозорості щодо своїх налаштувань продуктивності та лімітів, щоб відновити довіру. Технологія адаптивного виведення та динамічного розподілу ресурсів стане більш поширеною, що потребуватиме кращих інструментів моніторингу для користувачів.

Оригінал статті: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *