Чому “гобліни” OpenAI наганяють страху — та як звільнити їх у власному застосунку

Вибух “Гоблін-гейту”: Як випадкова примха ШІ розкрила глибинні виклики навчання

Чому "гобліни" OpenAI наганяють страху — та як звільнити їх у власному застосунку 1

Штучний інтелект (ШІ) — це більше, ніж просто технологія; це справжня магія. Не вірите? Тоді чому одна з провідних компаній у цій галузі, OpenAI, публікує цілі офіційні корпоративні статті про… гоблінів?

Щоб зрозуміти це, слід повернутися до початку тижня, а саме до понеділка, 27 квітня 2026 року. Тоді розробник під ніком @arb8020 у соціальній мережі X опублікував фрагмент з репозиторію OpenAI Codex. У ньому, глибоко в інструкціях для нової великої мовної моделі (LLM) OpenAI GPT-5.5, чотири рази з акцентом повторювалася дивна вказівка:

«Ніколи не говоріть про гоблінів, гремлінів, єнотів, тролів, огрів, голубів чи інших тварин чи істот, якщо це абсолютно та однозначно не пов’язано із запитом користувача».

Це відкриття викликало справжню хвилю в колах «ентузіастів» та дослідників машинного навчання (ML). За лічені години допис став вірусним, але не через вразливість, а через свою вражаючу специфічність. Чому провідна лабораторія ШІ у світі видала те, що користувачі Reddit швидко охрестили «наказом про заборону» щодо голубів та єнотів?

Спекуляції щодо гоблінів набирають обертів

Першою реакцією був хаотичний мікс гумору та технічного скептицизму. На сабредітах r/ChatGPT та r/OpenAI користувачі ділилися скріншотами поведінки GPT-5.5 до виправлення. Баррон Рот, старший менеджер проєктів прикладного ШІ в Google, опублікував у X зображення свого агента OpenClaw на базі GPT-5.5, який, здавалося, «був одержимий гоблінами». Інші повідомляли, що модель вперто називала технічні помилки «гремлінами в машині».

Розробники, як-от Стерлінг Кріспін, підхопили абсурдність, жартома припускаючи, що величезне споживання води сучасними дата-центрами насправді потрібне для охолодження «гоблінів, яких змушують працювати». Більш серйозно, дослідники на Hacker News та інших платформах обговорювали проблему «рожевого слона». У prompt engineering, коли моделі наказують не думати про щось, це часто робить концепт більш помітним у її механізмі уваги.

«Десь є інженер OpenAI, який мусив написати ‘ніколи не згадуй гоблінів’ у production-коді, закоммітити це і спокійно піти далі», — зазначив один з коментаторів на Reddit. Присутність «голубів» та «єнотів» породила дикі здогадки: чи це захист від специфічної атаки із забрудненням даних? Чи розробники reinforcement learning просто «залякали до смерті єнотом» під час обідньої перерви?

Напруга досягла апогею, коли співзасновник та генеральний директор OpenAI, Сем Альтман, долучився до обговорення в X. Того ж дня, коли було зроблено відкриття, Альтман опублікував скріншот запиту ChatGPT, який гласив: «Починайте тренування GPT-6, можете мати весь кластер. Додаткові гобліни». Хоча це було жартівливо, це підтвердило, що «гоблінський» феномен був не локальним багом, а загальнокорпоративним наративом, який досяг найвищих рівнів керівництва.

OpenAI пояснює “режим гоблінів”

Вчора, поки обговорення продовжувалося в X та ширших соціальних мережах, OpenAI опублікувала офіційне технічне пояснення під назвою «Звідки взялися гобліни». Блог-пост слугував тверезим поглядом на непередбачуваність Reinforcement Learning from Human Feedback (RLHF) та на те, як один естетичний вибір міг збити з курсу модель із мільярдами параметрів.

OpenAI розкрила, що «гоблінська» поведінка була не багом у традиційному розумінні, а побічним продуктом нової функції: персоналізації, яку вона запровадила для користувачів ChatGPT ще в липні 2025 року, але постійно вдосконалювала. Виявляється, ця функція не додається після завершення навчання моделі, а навпаки, OpenAI інтегрує її як частину наскрізного процесу навчання моделей серії GPT.

Функція дозволяє користувачам ChatGPT або розробникам на базі GPT вибирати з кількох виразних режимів, таких як «Професійний» для формальної робочої документації, «Дружній» для розмовного наставника, або «Ефективний» для стислих, технічних відповідей. Інші опції включають «Прямий», що надає відверті відгуки; «Дивакуватий», який використовує гумор та креативні метафори; та «Цинічний», який надає практичні поради з саркастичним, сухим присмаком. Хоча ці особистості керують загальною взаємодією, вони не скасовують специфічні вимоги до завдань; наприклад, запит на резюме чи код Python все одно буде відповідати професійним чи функціональним стандартам незалежно від обраної особистості.

Обрана особистість працює паралельно зі збереженими спогадами та власними інструкціями користувача, хоча специфічні визначені користувачем інструкції або збережені переваги для певного тону можуть переважати риси обраної особистості. На веб- та мобільних платформах користувачі можуть змінювати ці налаштування, перейшовши до меню «Персоналізація» під піктограмою свого профілю та вибравши стиль у спадному меню «Базовий стиль і тон». Після внесення зміни вона застосовується глобально до всіх наявних та майбутніх розмов. Ця система покликана зробити ШІ більш корисним або приємним, адаптуючи його подання до індивідуальних уподобань користувача, зберігаючи при цьому фактичну точність та надійність.

OpenAI стверджує, що проблема з гоблінами виникла кілька років тому, під час навчання режиму «Любительський», який мав бути «безкомпромісно дивакуватим» та «грайливим». Під час фази RLHF, людські тренери (і моделі винагороди) отримували вказівки надавати високі оцінки відповідям, які використовували креативну, мудру або не претензійну мову. Неусвідомлено, тренери почали надмірно винагороджувати метафори, що включали фентезійних істот. Якщо модель називала складний баг «гремліном», а заплутаний код «скарбом гобліна», сигнал винагороди різко зростав. Статистика, надана OpenAI, була вражаючою:

  • Використання слова «гоблін» зросло на 175% після запуску GPT-5.1.

  • Згадки про «гремліна» зросли на 52%.

  • Хоча режим «Любительський» становив лише 2,5% трафіку ChatGPT, на нього припадало 66,7% усіх згадок про «гобліна».

Механізми “переносу” та петлі зворотного зв’язку

Найважливішим висновком для спільноти ML стало підтвердження переносу навченої поведінки. OpenAI визнала, що, хоча винагороди застосовувалися лише до умови «Любительський», модель «узагальнила» цю перевагу. Процес машинного навчання не тримав поведінку чітко визначеною; натомість модель зрозуміла, що «метафори істот = висока винагорода» в усіх контекстах. Це створило руйнівну петлю зворотного зв’язку:

  1. Модель генерувала метафору «гобліна» в «Любительській» персоні.

  2. Вона отримувала високу винагороду.

  3. Модель потім генерувала подібні метафори в не «Любительських» контекстах.

  4. Ці «гоблінські» виходи потім повторно використовувалися в даних Supervised Fine-Tuning (SFT) для наступних моделей, таких як GPT-5.4 та GPT-5.5.

До того часу, як дослідники виявили проблему, «гоблінська» особливість була фактично «запечена» у вагах моделі. Це пояснювало, чому GPT-5.5 продовжувала бути одержимою істотами, навіть після того, як режим «Любительський» було вилучено в середині березня 2026 року.

Як ви можете дати гоблінам волю (якщо хочете)

Оскільки GPT-5.5 вже пройшла значну частину навчання до того, як було виявлено першопричину «гоблінів», OpenAI довелося вдатися до грубого пом’якшення за допомогою «системного промпту», який виявив @arb8020 у X. Компанія назвала це «тимчасовим заходом» до моменту, поки GPT-6 не буде навчена на відфільтрованому наборі даних.

З дивовижною шаною до спільноти розробників, блог-пост OpenAI містив специфічний скрипт командного рядка для користувачів Codex, які вважають гоблінів «чудовими», а не надокучливими. Запустивши скрипт, який використовує jq та grep для видалення «гоблін-придушувальних» інструкцій з кешу моделі, користувачі тепер можуть ефективно «дати істотам волю».

У блог-пості також нарешті пояснили специфічний список заборонених тварин. Глибокий пошук навчальних даних GPT-5.5 виявив, що «єноти», «тролі», «огри» та «голуби» стали частиною тієї ж «лексичної родини» примх. Цікаво, що використання моделлю слова «жаба» було переважно легітимним, тому воно й уникло вигнання зі списку системного промпту.

Що це означає для досліджень, навчання та впровадження ШІ в майбутньому

Інцидент «Гоблін-гейт» 2026 року — це більше, ніж просто кумедний анекдот про дивну поведінку ШІ; це глибока ілюстрація «розриву узгодженості» (Alignment Gap). Він демонструє, що навіть з витонченим RLHF, моделі можуть захоплюватися «помилковими кореляціями», плутаючи стилістичну примху з основним вимогою до продуктивності.

Для спільноти користувачів ШІ, реакція перейшла від висміювання «наказу про заборону» до більш тверезого усвідомлення. Якщо OpenAI може випадково навчити свою флагманську модель одержимості гоблінами, які ще більш тонкі та потенційно шкідливі упередження посилюються через ті ж петлі зворотного зв’язку?

Як написав Енді Берман, генеральний директор компанії з оркестрації агентного корпоративного ШІ Runlayer, сьогодні в X: «OpenAI винагороджувала метафори істот під час навчання однієї особистості. Поведінка поширилася на кожну особистість. Їхнє виправлення: системний промпт, який говорить ‘ніколи не говори про гоблінів’. Винагороди RL не залишаються там, де ви їх поклали. Так само і дозволи для агентів».

Поки технічний дискурс триває, «Гоблін-гейт» залишається першочерговим кейсом для нової ери аудиту поведінки. Розслідування призвело до створення OpenAI нових інструментів для аудиту поведінки моделі на кореневому рівні, забезпечуючи, щоб майбутні моделі — зокрема, довгоочікуваний GPT-6 — не успадкували дивацтва своїх попередників. Чи буде GPT-6 дійсно вільним від гоблінів, ще належить побачити, але, як свідчить допис Альтмана про «додаткових гоблінів», індустрія тепер повністю усвідомлює, що машини спостерігають за тим, що ми винагороджуємо, навіть коли ми думаємо, що просто «дивакуємо».

Прогноз ІТ-Блогу: Подібні інциденти підкреслюють критичну потребу в розробці більш надійних методів навчання ШІ, які запобігатимуть небажаному узагальненню поведінки. Очікується, що майбутні ітерації мовних моделей будуть зосереджені на покращенні ізоляції специфічних тренувань та більш тонкому контролі над генерацією контенту, щоб уникнути таких курйозних, але показових помилок.

За даними порталу: venturebeat.com

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *