
Буремний розвиток штучного інтелекту (ШІ) донедавна базувався на простому припущенні: чим більша модель, тим вона потужніша, і найпотужніші моделі завжди перемагають. Однак, зараз індустрія стоїть на порозі розуміння того, що станеться, якщо це припущення виявиться хибним.
Зростання витрат стимулює пошук ефективності
Накопичення витрат вже змушує користувачів уважніше придивлятися до менших і дешевших моделей ШІ. Цей процес вибору моделей з огляду на їх вартість є новим явищем, і його вплив на індустрію поки що неясний, але, ймовірно, буде значним.
Прогноз щодо розподілу навантаження
Одним із найцікавіших прогнозів, озвучених співзасновником Coinbase Браяном Армстронгом, є те, що переважна більшість завдань перейде на виконання за допомогою дешевших моделей. Армстронг написав у X: «Попит на інтелект майже нескінченний, але 80% робочих навантажень за 12-18 місяців будуть виконуватися на моделях, які на 99% дешевші. 20% робочих навантажень все ще виконуватимуться на моделях останнього покоління, де максимальний IQ є критично важливим».
Зміна економіки ШІ
Важко переоцінити, наскільки вагомим буде цей зсув для індустрії ШІ, якщо прогноз Армстронга справдиться. До цього моменту більшість компаній, що займаються ШІ, конкурували за якістю, обираючи за замовчуванням найдосконалішу доступну модель. Якщо ж ці ж завдання зможуть виконувати дешевші моделі без втрати якості, це означатиме кардинальну зміну в економіці ШІ. Важливо, що значна частина заощаджень піде з кишень великих розробників, завдаючи фінансового удару таким компаніям, як OpenAI та Anthropic, саме напередодні їх можливих IPO (публічних пропозицій акцій).
Передумови для переходу на менші моделі
Це потенційно сейсмічна зміна в індустрії, що ґрунтується на одному фундаментальному питанні: чи готові компанії перейти на менші моделі? Початкові тести свідчать, що за умови правильної організації системи, дешевші моделі можуть бути використані без втрати якості. У нещодавньому тестуванні юридичного ШІ-інструменту Harvey компанії вдалося зменшити витрати на висновки (inference costs) утричі без зниження якості. Тест, проведений у партнерстві з платформою Fireworks AI, поєднував Claude Opus та GLM 5.1 від Fireworks, і переключався на Opus для найскладніших завдань. Результатом стало суттєве зниження навантаження з точки зору серверного часу та загальної вартості.
Еволюція поняття “якість”
«Якість — це головне, і в юриспруденції це завжди буде так», — заявив співзасновник Harvey Гейб Перейра, говорячи про ШІ-юридичні послуги, які надає його стартап. «Однак, визначення якості еволюціонує від простого використання найпотужнішої моделі для всього до використання найкращої моделі, яка найефективніше дає правильну відповідь».
Розділення за розміром, а не за типом моделі
Ця тенденція часто подається як протистояння великих лабораторій китайським моделям або моделям з відкритим кодом (open-weight). Однак, це не зовсім так. Головний поділ полягає не між пропрієтарними та відкритими моделями, а між великими та малими моделями. Ви можете заощадити гроші, перейшовши з GPT-5.5 на DeepSeek V4 Flash, але так само добре спрацює і перехід на GPT-5.4-mini.
Цінова війна та її наслідки
Існує активна цінова війна між внутрішніми рішеннями великих лабораторій та незалежно розгорнутими моделями з відкритим кодом. Щодо головного питання — вибору між малими та великими моделями — не так важливо, яка саме мала модель переможе.
Відхід від “масштабування понад усе”
Все це може здатися очевидним — звичайно, не слід використовувати більше обчислювальних ресурсів, ніж необхідно. Проте, це суперечить підходу «масштабування понад усе», який домінував в індустрії дотепер. Натхненні гіркими уроками, лабораторії активно працювали над створенням найбільш обчислювально-інтенсивних моделей, розширюючи межі можливостей ШІ. Оскільки ціни значно субсидувалися інвесторами, клієнти не мали причин обирати щось, крім найдосконалішого варіанту.
Новий тиск витрат
Зі зростанням цін за токени та сповільненням субсидування, користувачі вперше стикаються з тиском витрат. Невідомо, чи змусить новий тиск витрат корпоративних користувачів перейти на менші моделі. Вони можуть так само легко оптимізувати витрати, роблячи менше запитів, використовуючи менше контексту або просто відмовляючись від найменш перспективних розгортань.
Вплив на майбутнє ШІ
Проте, якщо виявиться, що більшість розгортань може так само ефективно працювати на меншій моделі, це може суттєво зменшити зростаючий попит на висновки (inference) та поставити нові питання щодо обґрунтування вартості навчання передових моделей.
Думка ІТ-Блогу: Зсув акцентів від безкомпромісної потужності до економічної ефективності є природним етапом розвитку зрілої технології. Це відкриває двері для інновацій у сфері оптимізації та демократизує доступ до передових ШІ-рішень для ширшого кола компаній та користувачів.
Інформація підготовлена на основі матеріалів: techcrunch.com
