GPT-5.5 від OpenAI випереджає Claude Mythos: нове покоління ШІ в дії

Новий етап розвитку штучного інтелекту: OpenAI презентує GPT-5.5

Після тривалих чуток та витоків інформації про розробку OpenAI нової, потужнішої моделі машинного навчання, яка мала б стати основою для ChatGPT та API-інтерфейсу, компанія офіційно представила своє останнє досягнення під назвою GPT-5.5. Ця модель знаменує собою значний крок уперед, повертаючи OpenAI лідерство серед загальнодоступних великих мовних моделей (LLM), випереджаючи останні розробки конкурентів від Anthropic та Google.

GPT-5.5 від OpenAI випереджає Claude Mythos: нове покоління ШІ в дії 1

Штучний інтелект нового покоління

“Це, безумовно, наша найсильніша модель з точки зору програмування, що підтверджується як тестами, так і відгуками наших партнерів та власним досвідом”, – зазначила Амелія “Міа” Глейз, віце-президентка з досліджень OpenAI. GPT-5.5 позиціонується як фундаментальний перегляд взаємодії штучного інтелекту з операційними системами та професійним програмним забезпеченням. Грег Брокман, співзасновник та президент OpenAI, підкреслив ключові переваги моделі: “Що справді особливе в цій моделі, так це те, наскільки більше вона може зробити з меншою кількістю вказівок. Користуватися нею значно інтуїтивніше. Вона може розібратися в нечіткій проблемі та визначити, що потрібно зробити далі”. Сем Альтман, генеральний директор та співзасновник OpenAI, додав у своєму дописі в X: “Ми хочемо, щоб наші користувачі мали доступ до найкращих технологій, а кожен мав рівні можливості”.

Дві версії для різних завдань

Модель доступна у двох варіантах: GPT-5.5 та GPT-5.5 Pro. Версія Pro відрізняється підвищеною точністю та спеціалізованою логікою для найскладніших когнітивних завдань. Стандартна версія є універсальним флагманом для загальних завдань штучного інтелекту, тоді як Pro-версія розроблена спеціально для критично важливих середовищ, таких як юридичні дослідження, наука про дані та розширений бізнес-аналіз, де точність є першочерговою. Преміальний сегмент забезпечує помітно більш повні та структуровані відповіді, доповнені оптимізацією затримок для забезпечення високої продуктивності під час складних, багатоетапних робочих процесів. API-доступ для обох версій GPT-5.5 наразі недоступний, але компанія обіцяє його “дуже скоро”. OpenAI пояснює це необхідністю впровадження додаткових заходів безпеки та співпрацею з партнерами щодо вимог безпеки для масштабованого використання. Наразі GPT-5.5 доступний для платних підписників ChatGPT Plus, Pro, Business та Enterprise, при цьому доступ до GPT-5.5 Pro починається з тарифу Pro і вище.

Фокус на автономності

В основі GPT-5.5 лежить фокус на “агентній” продуктивності, зокрема в програмуванні, комп’ютерному використанні та наукових дослідженнях. На відміну від попередніх моделей, які часто вимагали детальних покрокових інструкцій, GPT-5.5 розроблена для самостійного виконання складних, багаточастинних завдань. Вона відмінно справляється з онлайн-дослідженнями, налагодженням складних кодових баз та роботою між документами та електронними таблицями без втручання людини. Одним із найважливіших технічних досягнень є ефективність моделі. Хоча більші моделі зазвичай мають підвищену затримку, GPT-5.5 демонструє таку ж затримку на токен, як і попередня GPT-5.4, водночас пропонуючи вищий рівень інтелекту. Це стало можливим завдяки глибокій співпраці апаратного та програмного забезпечення. OpenAI використовувала системи NVIDIA GB200 та GB300 NVL72 для розгортання GPT-5.5, застосовуючи власні евристичні алгоритми для розподілу роботи між ядрами GPU. Ця оптимізація, за оцінками, збільшила швидкість генерації токенів більш ніж на 20%. Режим “GPT-5.5 Thinking” у ChatGPT забезпечує розумніші та більш лаконічні відповіді, надаючи моделі більше внутрішнього “обчислювального часу” для перевірки власних припущень перед видачею результату. Ця здатність особливо помітна на внутрішньому бенчмарку OpenAI “Expert-SWE” для довготривалих завдань програмування, де GPT-5.5 продемонструвала значно кращі результати, ніж GPT-5.4, використовуючи при цьому значно менше токенів.

Бенчмарки: OpenAI знову на чолі

Конкуренція на ринку передових моделей штучного інтелекту між OpenAI, Anthropic та Google стає дедалі жорсткішою. Минулого тижня Anthropic випустила свою найпотужнішу загальнодоступну модель Opus 4.7, яка тимчасово зайняла лідерство за кількістю сторонніх тестів. Однак GPT-5.5 перевершила її, а також більш потужну, але обмежену модель Anthropic Claude Mythos Preview, зокрема в тесті Terminal-Bench 2.0, який перевіряє здатність моделі навігувати та виконувати завдання в пісочниковому середовищі терміналу.

GPT-5.5 досягла 82.7% точності на Terminal-Bench 2.0, випередивши Opus 4.7 (69.4%) та Mythos Preview (82.0%).

Однак у багатопрофільних міркуваннях без інструментів ситуація більш конкурентна. На тесті Humanity’s Last Exam без інструментів GPT-5.5 Pro показала 43.1%, відстаючи від Opus 4.7 (46.9%) та Mythos Preview (56.8%).

Бенчмарк	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	Mythos Preview*
Terminal-Bench 2.0	82.7	69.4	68.5	82.0
Expert-SWE (Internal)	73.1	—	—	—
GDPval (перемоги або нічиї)	84.9	80.3	67.3	—
OSWorld-Verified	78.7	78.0	—	79.6
Toolathlon	55.6	—	48.8	—
BrowseComp	84.4	79.3	85.9	86.9
FrontierMath Tier 1–3	51.7	43.8	36.9	—
FrontierMath Tier 4	35.4	22.9	16.7	—
CyberGym	81.8	73.1	—	83.1
Tau2-bench Telecom (оригінальні промпти)	98.0	—	—	—
OfficeQA Pro	54.1	43.6	18.1	—
Investment Banking Modeling Tasks (Internal)	88.5	—	—	—
MMMU Pro (без інструментів)	81.2	—	80.5	—
MMMU Pro (з інструментами)	83.2	—	—	—
GeneBench	25.0	—	—	—
BixBench	80.5	—	—	—
Capture-the-Flags challenge tasks (Internal)	88.1	—	—	—
ARC-AGI-2 (Verified)	85.0	75.8	77.1	—
SWE-bench Pro (Public)	58.6	64.3	54.2	77.8

Це свідчить про те, що хоча OpenAI виграє в “комп’ютерному використанні” та “автономності”, інші моделі можуть мати перевагу в чисто академічних знаннях. Важливо зазначити, що Mythos Preview не є загальнодоступним продуктом; Anthropic класифікує його як стратегічний захисний актив через високі ризики кібербезпеки, обмежуючи доступ до вузького кола довірених партнерів та урядових установ. Таким чином, основна ринкова конкуренція залишається між GPT-5.5, Gemini 3.1 Pro та Claude Opus 4.7. GPT-5.5 відновила своє лідерство для OpenAI, досягнувши найвищого рівня продуктивності в 14 бенчмарках порівняно з 4 у Claude Opus 4.7 та 2 у Google Gemini 3.1 Pro. Вона домінує в агентному комп’ютерному використанні, економічних знаннях (GDPval), спеціалізованій кібербезпеці (CyberGym) та складній математиці (Frontier Math). Натомість Claude Opus 4.7 лідирує в програмній інженерії та міркуваннях без інструментів, а Gemini 3.1 Pro – у трьох категоріях, особливо в академічних міркуваннях та фінансовому аналізі.

Збільшення витрат для користувачів

Зростання інтелекту моделі супроводжується значним підвищенням цін для розробників API. OpenAI подвоїла початкову ціну на свою флагманську модель порівняно з попереднім поколінням, і ще раз подвоїла її для найсучаснішого варіанту GPT-5.5 Pro.

Модель	Ціна за 1 млн токенів (вхід)	Ціна за 1 млн токенів (вихід)
GPT-5.4	$2.50	$15.00
GPT-5.5	$5.00	$30.00
GPT-5.5 Pro	$30.00	$180.00

Для пом’якшення цих витрат OpenAI наголошує на “токен-ефективності” GPT-5.5, яка використовує менше токенів для виконання того самого завдання порівняно з GPT-5.4. Для користувачів, яким швидкість важливіша за глибину, OpenAI також представила режим Fast mode у Codex, який генерує токени в 1.5 рази швидше, але за 2.5-кратну ціну.

Ліцензування та “кібер-дозволений” фронтір

Підхід OpenAI до безпеки та ліцензування GPT-5.5 запроваджує нову концепцію: Trusted Access for Cyber (Надійний доступ для кібербезпеки). Оскільки модель тепер здатна ідентифікувати та виправляти складні вразливості безпеки, OpenAI запровадила суворіші “класифікатори кіберризиків” для загальних користувачів. Проте для легітимних фахівців з безпеки OpenAI пропонує спеціальну “кібер-дозволену” ліцензію. Ця програма дозволяє верифікованим захисникам критичної інфраструктури використовувати моделі, такі як GPT-5.4-Cyber або необмежені версії GPT-5.5, з меншою кількістю відмов на запити, пов’язані з безпекою. Ця двостороння система визнає, що, хоча ШІ може прискорити кіберзахист, він також може бути використаний як зброя. Згідно з “Планом готовності” OpenAI, GPT-5.5 класифікується як “Високий” ризик для біологічних можливостей та кібербезпеки. Для управління цим API-розгортання вимагають додаткових заходів безпеки, відмінних від тих, що застосовуються до ChatGPT, і OpenAI співпрацює з урядовими партнерами, щоб гарантувати використання цих інструментів для зміцнення, а не підриву цифрової стійкості.

Перші реакції: втрата доступу як “ампутація кінцівки”

Ранні відгуки від досвідчених користувачів та інженерів свідчать про те, що GPT-5.5 перетнула психологічний поріг корисності ШІ. Для розробників здатність моделі підтримувати “концептуальну ясність” у величезних кодових базах є її видатними рисами.

“Перша модель для кодування, яку я використовував, що має серйозну концептуальну ясність”, – зазначив Ден Шиппер, CEO Every.

Шиппер протестував модель, попросивши її виправити складний системний збій, для якого раніше команді інженерів довелося переписувати код; GPT-5.5 самостійно знайшла таке саме рішення. Аналогічно, П’єтро Шірано, CEO MagicPath, описав “стрибок у продуктивності”, коли модель успішно об’єднала гілку з сотнями змін рефакторингу з основною гілкою за один прохід тривалістю 20 хвилин. Мабуть, найбільш емоційною була реакція анонімного інженера з NVIDIA, який мав ранній доступ до моделі:

“Втрата доступу до GPT-5.5 – це як ампутація кінцівки”.

Це відчуття поділяється і в науковій спільноті. Дерия Унутунмаз, професор Медичної школи Джексонської лабораторії геноміки, використовувала GPT-5.5 Pro для аналізу набору даних з 28 000 генів, створивши звіт за хвилини, який зазвичай займав місяці роботи її команди. Брендон Вайт, CEO Axiom Bio, пішов далі, заявивши, що якщо OpenAI продовжить такі темпи, “основи відкриття ліків зміняться до кінця року”. GPT-5.5 – це більше, ніж просто інкрементальне оновлення; це інструмент, розроблений для світу, де люди делегують цілі робочі процеси, а не окремі запити. Хоча витрати вищі, а запобіжні заходи безпеки суворіші, зростання продуктивності в агентній роботі свідчить про те, що ШІ нарешті виходить з чат-вікна і переходить в операційну систему. Найдивовижніше, за словами дослідників компанії, це ще не межа масштабування, коли моделі навчаються на все більшій кількості GPU. “У нас насправді ще є простір для навчання моделей, значно розумніших за цю”, – заявив головний науковий співробітник OpenAI Якуб Пачоцкі.

Прогноз ІТ-Блогу: GPT-5.5 значно підвищує планку для моделей, що покладаються на самостійне виконання складних завдань, і створює новий прецедент для “агентного” ШІ. Очікується, що конкуренти швидко відреагують, зосереджуючись на покращенні ефективності та безпеки, що може призвести до появи нових, спеціалізованих моделей для вирішення конкретних промислових завдань, а також до перегляду моделей ціноутворення на ринку API.

За даними порталу: venturebeat.com