Anthropic випускає Code Review для Claude Code, судиться через чорний список Пентагону та співпрацює з Microsoft

Компанія Anthropic представила Code Review — систему множинних штучних інтелектів, інтегровану в Claude Code, яка розсилає команди ШІ-агентів для перевірки кожного запиту на внесення змін (pull request) на наявність помилок, які часто пропускають людські рецензенти. Ця функція, доступна у дослідницькому попередньому перегляді для клієнтів Team та Enterprise, з’являється в потенційно найважливіший день в історії компанії: Anthropic одночасно подала позови проти адміністрації Трампа щодо чорного списку Пентагону, тоді як Microsoft анонсувала нове партнерство, яке вбудує Claude в їхню платформу Microsoft 365 Copilot.

Збіг великого запуску продукту, федеральної юридичної битви та угоди про стратегічне розповсюдження з найбільшою у світі компанією-розробником програмного забезпечення відображає надзвичайну напруженість, що визначає поточний момент Anthropic. Лабораторія штучного інтелекту зі штаб-квартирою в Сан-Франциско одночасно намагається розвивати бізнес інструментів для розробників з річною виручкою майже 2,5 мільярда доларів, захищатися від безпрецедентної державної класифікації як загрози національній безпеці та розширювати свій комерційний вплив через ті самі хмарні платформи, які зараз відчувають наслідки.

Code Review — це найсміливіша ставка Anthropic на те, що інженерні організації будуть готові платити значно більше — від 15 до 25 доларів за перевірку — за допомогу ШІ у забезпеченні якості коду, де пріоритетом є ретельність, а не швидкість. Це також сигналізує про ширший стратегічний поворот: компанія не просто створює моделі, вона будує навколо них чіткі робочі процеси для розробників.

Як команда ШІ-агентів перевіряє ваші pull requests

Code Review працює інакше, ніж звичні розробникам інструменти для перегляду коду. Коли розробник відкриває pull request, система надсилає кілька ШІ-агентів, які працюють паралельно. Ці агенти самостійно шукають помилки, потім перехресно перевіряють висновки один одного для фільтрації хибних спрацьовувань, і нарешті ранжують решту проблем за ступенем критичності. Результат з’являється як один загальний коментар до PR разом із позначками в тексті для конкретних помилок.

Anthropic розробила систему для динамічного масштабування відповідно до складності змін. Великі або складні pull requests отримують більше агентів та глибший аналіз; незначні зміни проходять легшу перевірку. Компанія стверджує, що середня перевірка займає приблизно 20 хвилин — значно повільніше, ніж майже миттєвий зворотний зв’язок від таких інструментів, як вбудований в GitHub Copilot, але це зроблено навмисно.

“Ми створили Code Review на основі відгуків клієнтів та внутрішніх даних”, – повідомив речник Anthropic. “Під час наших тестів ми виявили, що він надає високоцінний зворотний зв’язок і допоміг виявити помилки, які ми могли б пропустити. Розробники та інженерні команди використовують різні інструменти, і ми створюємо для цієї реальності. Мета — надати командам ефективний вибір на кожному етапі процесу розробки.”

Система виникла з власних інженерних практик Anthropic, де, за словами компанії, випуск коду на одного інженера зріс на 200% за останній рік. Таке зростання генерації коду за допомогою ШІ створило вузьке місце для перегляду, про яке компанія, як стверджується, отримує запити від клієнтів щотижня. До появи Code Review лише 16% внутрішніх PR Anthropic отримували суттєві коментарі щодо перегляду. Цей показник зріс до 54%.

Важливо, що Code Review не затверджує pull requests. Це рішення залишається за людськими рецензентами. Натомість система діє як множник сили, виявляючи проблеми, щоб людські рецензенти могли зосередитися на архітектурних рішеннях та вищих питаннях, а не на пошуку помилок рядок за рядком.

Чому Anthropic вважає 20 доларів за перевірку вигідною угодою

Ціноутворення одразу викличе критику. При ціні від 15 до 25 доларів за перевірку, що виставляється на основі використання токенів та масштабується з розміром PR, Code Review суттєво дорожчий за альтернативи. GitHub Copilot пропонує перегляд коду нативно як частину своєї існуючої підписки, а стартапи на кшталт CodeRabbit працюють за значно нижчими цінами. Навіть більш базовий GitHub Action для перегляду коду від Anthropic — який залишається з відкритим кодом — сам по собі є менш ресурсномістким та дешевшим варіантом.

Anthropic позиціонує вартість не як витрати на продуктивність, а як страховий продукт. “Для команд, які випускають продукти в продакшн, вартість помилки, що потрапила в продакшн, значно перевищує 20 доларів за перевірку”, – заявив речник компанії. “Один інцидент у продакшні — відкат, термінове виправлення, виклик чергового інженера — може коштувати більше в інженерних годинах, ніж місяць роботи Code Review. Code Review — це страховий продукт для якості коду, а не інструмент для прискорення обробки PR.”

Таке позиціонування є навмисним і показовим. Замість конкуренції за швидкість або ціну — виміри, де менш ресурсномісткі інструменти мають перевагу — Anthropic позиціонує Code Review як інструмент глибокого аналізу, орієнтований на керівників інженерних відділів, які керують ризиками продакшну. Прихований аргумент полягає в тому, що справжня порівняльна вартість — це не Code Review проти CodeRabbit, а Code Review проти повної вартості збою продакшну, включаючи час інженерів, вплив на клієнтів та репутаційні збитки.

Чи витримає цей аргумент, покажуть дані. Anthropic ще не опублікувала зовнішні порівняльні показники, що порівнюють рівень виявлення помилок Code Review з конкурентами, і речник не надав конкретних цифр щодо виявлених помилок на долар або заощаджених інженерних годин, коли його прямо запитали. Для керівників інженерних відділів, які оцінюють інструмент, цей розрив у загальнодоступних порівняльних даних може сповільнити впровадження, навіть якщо теоретичний аргумент щодо рентабельності інвестицій є переконливим.

Що розкривають внутрішні дані — і що вони не розкривають

Внутрішні дані використання Anthropic дають раннє уявлення про характеристики продуктивності системи. На великих pull requests, що перевищують 1000 рядків коду, 84% отримують виявлення, в середньому 7,5 проблем на перевірку. На малих PRs менше 50 рядків цей показник знижується до 31% із середнім показником 0,5 проблеми. Компанія повідомляє, що менше 1% виявлень позначаються інженерами як неправильні.

Цей показник менше 1% вимагає ретельного аналізу. На запитання, як визначається “позначено як неправильне”, речник Anthropic пояснив, що це означає “інженер активно закриває коментар, не виправляючи його. Ми будемо продовжувати відстежувати відгуки та взаємодію під час дослідницького попереднього перегляду Code Review.”

Методологія має значення. Це показник розбіжностей за згодою — інженер повинен зробити ствердну дію, щоб відхилити виявлення. На практиці розробники, які працюють в умовах обмеженого часу, можуть просто ігнорувати нерелевантні виявлення, замість того, щоб активно позначати їх як неправильні, що призведе до того, що хибні спрацьовування залишаться неврахованими. Anthropic непрямо визнала це обмеження, зазначивши, що система знаходиться в дослідницькому попередньому перегляді і що вона буде продовжувати відстежувати дані взаємодії. Компанія ще не провела або опублікувала контрольовану оцінку, що порівнює виявлення агентів із базовим рівнем істини, встановленим експертними людськими рецензентами.

Анекдотичні докази, тим не менш, вражають. Anthropic описала випадок, коли однорядкова зміна в сервісі продакшну — тип дифу, який зазвичай отримує поверхневе схвалення — була позначена Code Review як критична, оскільки вона могла б порушити автентифікацію для сервісу. В іншому прикладі, що стосується відкритого вихідного коду проміжного програмного забезпечення TrueNAS, Code Review виявив попередню помилку в суміжному коді під час рефакторингу шифрування ZFS: невідповідність типів, яка мовчки стирала кеш ключів шифрування при кожному синхронізації. Це саме ті категорії помилок — приховані проблеми в зміненому, але незміненому коді, та тонкі зміни поведінки, що ховаються в малих дифах — які людські рецензенти статистично найімовірніше пропустять.

Позов проти Пентагону кидає довгу тінь на корпоративний ШІ

Запуск Code Review відбувається не у вакуумі. В той же день Anthropic подала два позови — один до Окружного суду США Північного округу Каліфорнії, а інший до Апеляційного суду округу Колумбія — оскаржуючи рішення адміністрації Трампа класифікувати компанію як ризик ланцюга поставок для національної безпеки, класифікація, яка історично застосовувалася до іноземних супротивників.

Правова конфронтація виникла через зрив переговорів щодо контракту між Anthropic та Пентагоном. Як повідомляв CNN, Міністерство оборони бажало необмеженого доступу до Claude для “всіх законних цілей”, тоді як Anthropic наполягала на двох червоних лініях: її ШІ не буде використовуватися для повністю автономної зброї або масового внутрішнього нагляду. Коли переговори провалилися до встановленого Пентагоном терміну 27 лютого, президент Трамп доручив усім федеральним агентствам припинити використання технологій Anthropic, а міністр оборони Піт Гегсет офіційно класифікував компанію як ризик ланцюга поставок.

Згідно з CNBC, у скарзі стверджується, що ці дії є “безпрецедентними та незаконними” і “незворотно шкодять Anthropic”, при цьому компанія заявляє, що контракти вже скасовуються, і “сотні мільйонів доларів” потенційного доходу знаходяться під загрозою.

“Пошук судового перегляду не змінює нашої давньої відданості використанню ШІ для захисту нашої національної безпеки”, – заявив речник Anthropic. “Але це необхідний крок для захисту нашого бізнесу, наших клієнтів та наших партнерів. Ми будемо продовжувати шукати всі шляхи до вирішення, включаючи діалог з урядом.”

Для корпоративних покупців, які оцінюють Code Review та інші інструменти на базі Claude, судовий позов вводить нову категорію ризику для постачальника. Класифікація ризику ланцюга поставок впливає не тільки на державні контракти Anthropic — як повідомляв CNBC, вона вимагає від підрядників Міністерства оборони сертифікувати, що вони не використовують Claude у своїй роботі, пов’язаній з Пентагоном. Це створює стримуючий ефект, який може поширитися далеко за межі оборонного сектору, навіть коли комерційний імпульс компанії прискорюється.

Microsoft, Google та Amazon встановлюють межу комерційної доступності Claude

Реакція ринку на кризу з Пентагоном була помітно двоякою. Поки уряд рухався до ізоляції Anthropic, три найбільші хмарні партнери з розповсюдження компанії рухалися в протилежному напрямку.

Microsoft у понеділок оголосила про інтеграцію Claude в Microsoft 365 Copilot через новий продукт під назвою Copilot Cowork, розроблений у тісній співпраці з Anthropic. Як повідомляв Yahoo Finance, сервіс дозволяє корпоративним користувачам виконувати такі завдання, як створення презентацій, введення даних в таблиці Excel та координація зустрічей — той тип можливостей продуктивності агентів, який спричинив падіння акцій SaaS-компаній, таких як Salesforce, ServiceNow та Intuit, коли Anthropic вперше представила свій продукт Cowork 30 січня.

Час не є випадковим. Як повідомляв TechCrunch минулого тижня, Microsoft, Google та Amazon Web Services підтвердили, що Claude залишається доступним для їхніх клієнтів для робочих навантажень, не пов’язаних з обороною. Юридична команда Microsoft конкретно дійшла висновку, що “продукти Anthropic, включаючи Claude, можуть залишатися доступними для наших клієнтів — окрім Міністерства оборони — через такі платформи, як M365, GitHub та Microsoft AI Foundry.”

Те, що три найвпливовіші технологічні компанії світу публічно підтвердили свою відданість розповсюдженню моделей Anthropic — в той самий день, коли компанія подала позов проти федерального уряду — говорить корпоративним клієнтам щось важливе про оцінку ринком як технічної цінності Claude, так і юридичної стійкості класифікації ризику ланцюга поставок.

Безпека даних та що потрібно знати корпоративним покупцям

Для організацій, які розглядають Code Review, питання обробки даних має велике значення. Система неминуче отримує доступ до пропрієтарного вихідного коду для виконання свого аналізу. Речник Anthropic прямо відповів на це: “Anthropic не використовує дані наших клієнтів для навчання моделей. Це одна з причин, чому клієнти у високорегульованих галузях, від Novo Nordisk до Intuit, довіряють нам безпечне та ефективне впровадження ШІ.”

Речник не надав деталей щодо конкретної політики зберігання або сертифікатів відповідності, коли його запитали, хоча посилання компанії на клієнтів з фармацевтичної та фінансової галузей свідчить про те, що вона пройшла необхідні для цих галузей перевірки безпеки.

Адміністратори мають кілька інструментів для керування витратами та обсягом, включаючи щомісячні ліміти витрат для всієї організації, увімкнення на рівні репозиторію та інформаційну панель аналітики, що відстежує переглянуті PR, коефіцієнти прийняття та загальні витрати. Після увімкнення перевірки запускаються автоматично для нових pull requests без необхідності конфігурації для кожного розробника.

Річний дохід, який підтвердила Anthropic — 2,5 мільярда доларів станом на 12 лютого для Claude Code — підкреслює, наскільки швидко інструменти для розробників стали суттєвим джерелом доходу для компанії. Речник послався на нещодавнє залучення фінансування Series G від Anthropic як на додатковий контекст, але не розкрив, яку частку загального доходу компанії становить Claude Code.

Code Review доступний зараз у дослідницькому попередньому перегляді для планів Claude Code Team та Enterprise. Чи зможе він виправдати свою преміальну ціну на ринку, вже насиченому дешевшими альтернативами, залежатиме від того, чи зможе Anthropic перетворити анекдотичні випадки виявлення помилок та внутрішню статистику використання на суворі, зовнішньо підтверджені докази, які потребують керівники інженерних відділів з бюджетами продакшну — і все це під час навігації в юридичному та політичному середовищі, якому галузь ШІ ще ніколи не стикалася.

Прогноз ІТ-Блогу: Інструменти для перегляду коду на базі ШІ, подібні до Code Review, ймовірно, стануть стандартом у розробці програмного забезпечення, витісняючи традиційні методи. Ми побачимо швидке вдосконалення точності та зниження вартості, що зробить їх доступними для команд будь-якого розміру.

Джерело новини: venturebeat.com