
Стрімкий розвиток технологій штучного інтелекту не сповільнюється. Лише через два дні після запуску OpenAI нової базової моделі ШІ для ChatGPT, відомої як GPT-5.3 Instant, компанія представила ще одне, ще масштабніше оновлення: GPT-5.4.
Фактично, GPT-5.4 представлена у двох варіантах: GPT-5.4 Thinking та GPT-5.4 Pro, останній розроблений для виконання найскладніших завдань.
Обидві моделі будуть доступні через платний програмний інтерфейс (API) OpenAI та програмне забезпечення для розробки Codex. GPT-5.4 Thinking буде доступна для всіх платних підписників ChatGPT (Plus, план за 20 доларів на місяць і вище), а Pro буде зарезервована для користувачів ChatGPT Pro (200 доларів на місяць) та Enterprise.
Користувачі безкоштовної версії ChatGPT також зможуть відчути можливості GPT-5.4, але лише тоді, коли їхні запити автоматично маршрутизуватимуться до цієї моделі, повідомив речник OpenAI.
Ключовими перевагами цього випуску є ефективність: OpenAI повідомляє, що GPT-5.4 використовує значно менше токенів (на деяких завданнях на 47% менше), ніж її попередники. Ще більш вражаючою є нова «рідна» функція використання комп’ютера, доступна через API та Codex, яка дозволяє GPT-5.4 взаємодіяти з комп’ютером користувача подібно до людини та працювати з різними додатками.
Компанія також випускає новий набір інтеграцій ChatGPT, що дозволяє безпосередньо підключати GPT-5.4 до електронних таблиць Microsoft Excel та Google Sheets користувачів. Це забезпечить детальний аналіз та автоматизацію завдань, що значно прискорить роботу підприємств. Однак, це може посилити побоювання щодо скорочення робочих місць серед білих комірців, особливо після подібних пропозицій від Anthropic з їхнім Claude та новим додатком Cowork.
OpenAI стверджує, що GPT-5.4 підтримує до 1 мільйона токенів контексту в API та Codex, що дозволяє агентам планувати, виконувати та перевіряти завдання протягом тривалого часу. Однак, вартість за 1 мільйон токенів подвоюється, якщо вхідний обсяг перевищує 272 000 токенів.
Рідне використання комп’ютера: крок до автономних робочих процесів
Найбільш значущою можливостю, яку виділяє OpenAI, є те, що GPT-5.4 — це перша універсальна модель, випущена з рідними, передовими можливостями використання комп’ютера в Codex та API, що дозволяє агентам керувати комп’ютерами та виконувати багатоетапні робочі процеси в різних додатках.
OpenAI заявляє, що модель може як писати код для керування комп’ютерами за допомогою бібліотек на кшталт Playwright, так і надсилати команди миші та клавіатури у відповідь на знімки екрана. OpenAI також стверджує про значний прогрес у веб-браузингу для агентів.
Результати бенчмарків представлені як доказ того, що це не просто обгортка інтерфейсу користувача.
У тесті BrowseComp, який вимірює, наскільки добре агенти ШІ можуть постійно переглядати веб-сайти для пошуку важкодоступної інформації, OpenAI повідомляє про покращення GPT-5.4 на 17% порівняно з GPT-5.2, а GPT-5.4 Pro досяг 89,3%, що описується як новий рівень передових розробок.
У тесті OSWorld-Verified, який вимірює навігацію по робочому столу за допомогою знімків екрана, а також дій клавіатури та миші, OpenAI повідомляє про 75,0% успішності GPT-5.4 порівняно з 47,3% для GPT-5.2. При цьому зазначається, що людська продуктивність становить 72,4%.
У тесті WebArena-Verified GPT-5.4 досягає 67,3% успішності, використовуючи як DOM, так і взаємодію на основі знімків екрана, порівняно з 65,4% для GPT-5.2. У тесті Online-Mind2Web OpenAI повідомляє про 92,8% успішності, використовуючи лише візуальні дані зі знімків екрана.
OpenAI також пов’язує використання комп’ютера з поліпшеннями в обробці зображень та документів. У тесті MMMU-Pro, GPT-5.4 досягає 81,2% успішності без використання інструментів, порівняно з 79,5% для GPT-5.2. OpenAI зазначає, що ця результативність досягається з використанням значно меншої кількості «токенів мислення».
У тесті OmniDocBench середній показник помилок GPT-5.4 становить 0,109, що є покращенням порівняно з 0,140 для GPT-5.2. Публікація також описує розширену підтримку високоякісних вхідних зображень, включаючи рівень деталізації «оригінал» до 10,24 мільйонів пікселів.
OpenAI позиціонує GPT-5.4 як модель, розроблену для довших, багатоетапних робочих процесів — таких, що все більше нагадують агента, який підтримує стан між численними діями, а не чат-бота, що відповідає одноразово.
Пошук інструментів та покращена оркестрація
Зі зростанням екосистем інструментів, OpenAI стверджує, що наївний підхід — завантаження всіх визначень інструментів у запит — створює додаткове навантаження на кожен запит: витрати, затримка та забруднення контексту.
GPT-5.4 вводить пошук інструментів в API як структурне рішення. Замість отримання всіх визначень інструментів заздалегідь, модель отримує легкий список інструментів плюс можливість пошуку, і витягує повні визначення інструментів лише тоді, коли вони дійсно потрібні.
OpenAI описує виграш в ефективності конкретним порівнянням: на 250 завданнях з бенчмарку Scale MCP Atlas, при запуску з 36 серверами MCP, конфігурація пошуку інструментів зменшила загальне використання токенів на 47%, досягнувши тієї ж точності, що й конфігурація, яка надавала всі функції MCP безпосередньо в контексті.
Ці 47% стосуються саме налаштування пошуку інструментів у цьому оцінюванні — це не загальна заява про те, що GPT-5.4 використовує на 47% менше токенів для кожного типу завдань.
Покращення для розробників та робочих процесів кодування
OpenAI стверджує, що GPT-5.4 поєднує сильні сторони GPT-5.3-Codex у кодуванні з потужнішими можливостями використання інструментів та комп’ютера, що є важливим, коли завдання не є одноразовими.
GPT-5.4 відповідає або перевершує GPT-5.3-Codex у SWE-Bench Pro, демонструючи меншу затримку під час міркувань.
Codex також отримує налаштування робочих процесів. OpenAI зазначає, що режим `/fast` забезпечує до 1,5-кратного збільшення продуктивності для підтримуваних моделей, включаючи GPT-5.4, описуючи це як ту саму модель та інтелект, «просто швидше».
Крім того, випущено експериментальну навичку Codex «Playwright (Interactive)», призначену для демонстрації того, як кодування та взаємодія з комп’ютером можуть працювати разом — візуально налагоджуючи веб- та Electron-додатки та тестуючи додаток під час його створення.
OpenAI для Microsoft Excel та Google Sheets
Разом із GPT-5.4, OpenAI анонсує набір безпечних продуктів ШІ в ChatGPT, розроблених для підприємств та фінансових установ, що працюють на базі GPT-5.4 для розширеного фінансового аналізу та моделювання в Excel.
Центральним елементом є ChatGPT для Excel та Google Sheets (бета), який OpenAI описує як ChatGPT, вбудований безпосередньо в електронні таблиці для створення, аналізу та оновлення складних фінансових моделей з використанням формул та структур, на які вже покладаються команди.
Набір також включає нові інтеграції додатків ChatGPT, призначені для об’єднання ринкових, корпоративних та внутрішніх даних в єдиний робочий процес, називаючи серед партнерів FactSet, MSCI, Third Bridge та Moody’s.
Також запроваджено багаторазові «Навички» для регулярної фінансової роботи, такої як попередні огляди прибутків, аналіз конкурентів, дисконтовані грошові потоки (DCF) та підготовка інвестиційних меморандумів.
OpenAI підкріплює свій фінансовий наступ заявою про внутрішній бенчмарк: продуктивність моделі зросла з 43,7% з GPT-5 до 88,0% з GPT-5.4 Thinking на внутрішньому бенчмарку OpenAI в галузі інвестиційного банкінгу.
Вимірювання продуктивності ШІ на рівні професійної роботи
OpenAI спирається на бенчмарки, розроблені для імітації реальних офісних завдань, а не лише вирішення головоломок. У тесті GDPval, який охоплює «чітко визначену інтелектуальну працю» у 44 професіях, OpenAI повідомляє, що GPT-5.4 відповідає або перевершує галузевих професіоналів у 83,0% порівнянь, порівняно з 71,0% для GPT-5.2.
Компанія також підкреслює конкретні покращення у типах артефактів, які зазвичай виявляють слабкі місця моделі: структуровані таблиці, формули, узгодженість наративу та якість дизайну.
У внутрішньому тесті завдань з моделювання електронних таблиць, змодельованих за прикладом роботи молодшого аналітика інвестиційного банкінгу, GPT-5.4 досягає середнього показника 87,5%, порівняно з 68,4% для GPT-5.2.
А в наборі завдань з оцінки презентацій OpenAI стверджує, що люди-оцінювачі надавали перевагу презентаціям GPT-5.4 у 68,0% випадків над GPT-5.2, посилаючись на сильнішу естетику, більшу візуальну різноманітність та ефективніше використання генерації зображень.
Підвищення надійності та зменшення галюцинацій
OpenAI описує GPT-5.4 як свою найбільш фактичну модель на сьогоднішній день і пов’язує це твердження з практичним набором даних: знеособлені запити, де користувачі раніше повідомляли про фактичні помилки. У цьому наборі OpenAI повідомляє, що *індивідуальні твердження* GPT-5.4 на 33% менш імовірнісно є хибними, а її *повні відповіді* на 18% менш імовірнісно містять будь-які помилки порівняно з GPT-5.2.
У заявах, наданих VentureBeat від OpenAI та приписуваних раннім тестувальникам GPT-5.4, Даніель Свієцкі з Walleye Capital зазначає, що під час внутрішніх фінансових оцінок та оцінок Excel GPT-5.4 підвищив точність на 30 процентних пунктів, що він пов’язує з розширеною автоматизацією оновлень моделей та аналізу сценаріїв.
Брендан Фуді, генеральний директор Mercor, називає GPT-5.4 найкращою моделлю, яку компанія коли-небудь тестувала, і стверджує, що вона тепер очолює бенчмарк APEX-Agents компанії Mercor для професійних послуг, наголошуючи на довготривалих результатах, таких як слайд-презентації, фінансові моделі та юридичний аналіз.
Ціноутворення та доступність
В API OpenAI зазначає, що GPT-5.4 Thinking доступна як gpt-5.4, а GPT-5.4 Pro як gpt-5.4-pro. Ціни наступні:
-
GPT-5.4: 2,50 долари США за 1 мільйон вхідних токенів; 15 доларів США за 1 мільйон вихідних токенів
-
GPT-5.4 Pro: 30 доларів США за 1 мільйон вхідних токенів; 180 доларів США за 1 мільйон вихідних токенів
-
Пакет + Flex: половина ставки; Пріоритетна обробка: 2-кратна ставка
Це робить GPT-5.4 однією з найдорожчих моделей для запуску через API порівняно з усіма іншими, як показано в таблиці нижче.
|
Модель |
Вхід |
Вихід |
Загальна вартість |
Джерело |
|
Qwen 3 Turbo |
0,05 дол. США |
0,20 дол. США |
0,25 дол. США |
Alibaba Cloud |
|
Qwen3.5-Flash |
0,10 дол. США |
0,40 дол. США |
0,50 дол. США |
Alibaba Cloud |
|
deepseek-chat (V3.2-Exp) |
0,28 дол. США |
0,42 дол. США |
0,70 дол. США |
DeepSeek |
|
deepseek-reasoner (V3.2-Exp) |
0,28 дол. США |
0,42 дол. США |
0,70 дол. США |
DeepSeek |
|
Grok 4.1 Fast (reasoning) |
0,20 дол. США |
0,50 дол. США |
0,70 дол. США |
xAI |
|
Grok 4.1 Fast (non-reasoning) |
0,20 дол. США |
0,50 дол. США |
0,70 дол. США |
xAI |
|
MiniMax M2.5 |
0,15 дол. США |
1,20 дол. США |
1,35 дол. США |
MiniMax |
|
Gemini 3.1 Flash-Lite |
0,25 дол. США |
1,50 дол. США |
1,75 дол. США |
|
|
MiniMax M2.5-Lightning |
0,30 дол. США |
2,40 дол. США |
2,70 дол. США |
MiniMax |
|
Gemini 3 Flash Preview |
0,50 дол. США |
3,00 дол. США |
3,50 дол. США |
|
|
Kimi-k2.5 |
0,60 дол. США |
3,00 дол. США |
3,60 дол. США |
Moonshot |
|
GLM-5 |
1,00 дол. США |
3,20 дол. США |
4,20 дол. США |
Z.ai |
|
ERNIE 5.0 |
0,85 дол. США |
3,40 дол. США |
4,25 дол. США |
Baidu |
|
Claude Haiku 4.5 |
1,00 дол. США |
5,00 дол. США |
6,00 дол. США |
Anthropic |
|
Qwen3-Max (2026-01-23) |
1,20 дол. США |
6,00 дол. США |
7,20 дол. США |
Alibaba Cloud |
|
Gemini 3 Pro (≤200K) |
2,00 дол. США |
12,00 дол. США |
14,00 дол. США |
|
|
GPT-5.2 |
1,75 дол. США |
14,00 дол. США |
15,75 дол. США |
OpenAI |
|
Claude Sonnet 4.6 |
3,00 дол. США |
15,00 дол. США |
18,00 дол. США |
Anthropic |
|
GPT-5.4 |
2,50 дол. США |
15,00 дол. США |
17,50 дол. США |
OpenAI |
|
Gemini 3 Pro (>200K) |
4,00 дол. США |
18,00 дол. США |
22,00 дол. США |
|
|
Claude Opus 4.6 |
5,00 дол. США |
25,00 дол. США |
30,00 дол. США |
Anthropic |
|
GPT-5.2 Pro |
21,00 дол. США |
168,00 дол. США |
189,00 дол. США |
OpenAI |
|
GPT-5.4 Pro |
30,00 дол. США |
180,00 дол. США |
210,00 дол. США |
OpenAI |
Ще одне важливе зауваження: з GPT-5.4 запити, що перевищують 272 000 вхідних токенів, тарифікуються за подвійною ставкою, що відображає можливість надсилати промпти, більші за ті, що підтримувалися попередніми моделями.
У Codex стиснення за замовчуванням становить 272 тис. токенів, і вища ціна за довгий контекст застосовується лише тоді, коли вхідний обсяг перевищує 272 тис. Це означає, що розробники можуть надсилати промпти розміром до цього ліміту без підвищення ставки, але можуть обрати використання більших промптів, збільшивши ліміт стиснення, при цьому лише такі більші запити будуть тарифікуватися інакше.
Речник OpenAI повідомив, що в API максимальний вихідний обсяг становить 128 000 токенів, як і в попередніх моделях.
Нарешті, щодо причини вищої базової ціни GPT-5.4, речник пояснив це трьома факторами: вища потужність для складних завдань (включаючи кодування, використання комп’ютера, глибокі дослідження, генерацію розширених документів та використання інструментів), значні дослідницькі досягнення відповідно до плану OpenAI, та ефективніші міркування, які використовують менше токенів для аналогічних завдань. Він додав, що OpenAI вважає, що GPT-5.4 залишається нижчою за порівнянні передові моделі за ціною, незважаючи на підвищення.
Ширший зсув
У рамках релізу та наступних уточнень GPT-5.4 позиціонується як модель, призначена для виходу за межі «генерації відповідей» та переходу до стійких професійних робочих процесів — тих, що вимагають оркестрації інструментів, взаємодії з комп’ютером, довгого контексту та результатів, які виглядають як артефакти, що люди реально використовують на роботі.
Акцент OpenAI на ефективності токенів, пошуку інструментів, рідному використанні комп’ютера та зменшенні кількості помилок, на які вказують користувачі, вказує в одному напрямку: зробити агентні системи більш життєздатними на практиці шляхом зниження вартості повторних спроб — чи то повторний запит від людини, чи то виклик іншого інструменту агентом, чи то повторне виконання робочого процесу через те, що перший прохід не був успішним.
Прогноз ІТ-Блогу: Наступний еволюційний стрибок GPT-5.4, ймовірно, зосередиться на глибшій автономності агентів та сталому навчанні в реальному часі, що дозволить їм адаптуватися до нових завдань та умов без постійного втручання користувача. З часом це може призвести до появи повністю автоматизованих робочих місць, де ШІ-агенти керують комплексними проектами від початку до кінця.
За матеріалами: venturebeat.com
