Автоматизуйте AI-дослідження: новий застосунок Карпаті випустить сотні експериментів щоночі

Минулими вихідними Андрій Карпаті, впливовий колишній керівник напрямку ШІ в Tesla та співзасновник, а також екс-член OpenAI, який ввів у обіг термін “vibe coding”, опублікував у X інформацію про свій новий open-source проєкт autoresearch.

Це не була готова модель чи масштабний корпоративний продукт: за його власним визнанням, це був простий скрипт обсягом 630 рядків, доступний на Github під ліцензією MIT, дружньою до бізнесу. Але амбіції були колосальними: автоматизація наукового методу за допомогою агентів ШІ, поки ми, люди, спимо.

“Мета — розробити агентів, які забезпечать найшвидший прогрес у дослідженнях безкінечно і без вашої участі”, — заявив він у X.

Система функціонує як автономний оптимізаційний цикл. Агенту ШІ надається скрипт для навчання та обмежений бюджет обчислювальних потужностей (зазвичай 5 хвилин на GPU).

Він читає власний вихідний код, формує гіпотезу щодо покращення (наприклад, зміна швидкості навчання або глибини архітектури), модифікує код, проводить експеримент і оцінює результати.

Якщо показник втрат при валідації (val_bpb — біти на байт) покращується, зміна зберігається; якщо ні — відбувається відкат і спроба знову. За одну ніч роботи агент Карпаті виконав 126 експериментів, знизивши показник втрат з 0.9979 до 0.9697.

Сьогодні Карпаті повідомив, що після двох днів роботи його агент оптимізував модель “depth=12”, виконавши приблизно 700 автономних змін.

Агент виявив близько 20 адитивних покращень, які ідеально перенеслися на більші моделі. Комбінування цих змін знизило показник “Time to GPT-2” у рейтингу з 2.02 години до 1.80 години — це 11% підвищення ефективності проєкту, який, на думку Карпаті, вже був добре оптимізований.

“Бачити, як агент виконує весь цей процес від початку до кінця самостійно… це неймовірно”, — зазначив Карпаті, додавши, що агент виявив недоліки в масштабуванні уваги та регуляризації, які він сам пропустив за два десятиліття роботи.

Це більше, ніж просто хак для продуктивності; це фундаментальний зсув у тому, як вдосконалюється інтелект. Автоматизувавши “науковий метод” для коду, Карпаті перетворив машинне навчання на еволюційний процес, що відбувається зі швидкістю кремнію, а не людської думки.

Більше того, це показало ширшій спільноті ШІ та машинного навчання у X, що подібні процеси можуть застосовуватися далеко за межами комп’ютерних наук, у таких галузях, як маркетинг, охорона здоров’я і, по суті, будь-що, що вимагає досліджень.

Autoresearch поширюється далеко і широко

Реакція була миттєвою і вірусною: пост Карпаті набрав понад 8.6 мільйона переглядів за два дні, оскільки розробники та дослідники поспішали масштабувати “петлю Карпаті”.

Варун Матур, генеральний директор платформи агрегації інструментів ШІ Hyperspace AI, взяв одноагентну петлю і розподілив її по peer-to-peer мережі. Кожен вузол, що запускав агент Hyperspace, ставав автономним дослідником.

У ніч з 8 на 9 березня 35 автономних агентів у мережі Hyperspace провели 333 експерименти повністю без нагляду. Результати стали майстер-класом з емерджентних стратегій:

Різноманітність обладнання як перевага: Матур зазначив, що тоді як GPU H100 використовували “грубу силу” для пошуку агресивних швидкостей навчання, агенти, що працювали виключно на CPU, були змушені бути винахідливими. Ці “агенти-аутсайдери” зосередилися на стратегіях ініціалізації (наприклад, Kaiming та Xavier init) та виборі нормалізації, оскільки не могли покладатися на сиру обчислювальну потужність.
Відкриття на основі “пліток”: Використовуючи протокол GossipSub, агенти обмінювалися своїми успіхами в реальному часі. Коли один агент виявив, що ініціалізація Kaiming знизила втрати на 21%, ця ідея поширилася мережею, як цифровий вірус. Протягом годин 23 інші агенти включили це відкриття до своїх гіпотез.
Стиснення історії: Лише за 17 годин ці агенти самостійно перевідкрили ключові етапи в ML, такі як RMSNorm та tied embeddings, на формалізацію яких дослідникам з таких лабораторій, як Google Brain та OpenAI, знадобилося майже вісім років.

Замість 30 маркетингових експериментів на рік — 36 500

Поки ML-пуристи зосереджувалися на кривих втрат, бізнес-світ побачив інший вид революції. Ерік Сіу, засновник рекламної агенції Single Grain, застосував autoresearch до “експериментального циклу” маркетингу.

“Більшість маркетингових команд проводять близько 30 експериментів на рік”, — написав Сіу у X. “Наступне покоління проводитиме 36 500+. Легко.” Він продовжив:

“Вони проводитимуть експерименти, поки сплять. Поточні маркетингові команди проводять 20-30 експериментів на рік. Можливо, 52, якщо вони “добрі”. Нова цільова сторінка. Новий рекламний креатив. Можливо, тест теми листа. Це вважається “маркетингом, керованим даними”. Але наступне покоління маркетингових систем проводитиме понад 36 500 експериментів на рік.”

Система Сіу замінює скрипт навчання на маркетинговий актив — цільову сторінку, рекламний креатив або холодний лист. Агент змінює змінну (тему листа або заклик до дії), розгортає її, вимірює “коефіцієнт позитивних відповідей” і зберігає або відкидає.

Сіу стверджує, що це створює “власну карту” того, що резонує з певною аудиторією — ефект “рови”, побудований не з коду, а з історії експериментів. “Компанії, які переможуть, матимуть не кращих маркетологів”, — написав він, — “а швидші експериментальні цикли”.

Обговорення спільноти та “псування” валідаційного набору

Попри ажіотаж, обговорення на GitHub виявили, що спільнота переймається наслідками такого швидкого, автоматизованого прогресу.

Пастка надмірної оптимізації: Дослідник alexisthual висловив глибоке занепокоєння: “Хіба ви не хвилюєтеся, що запуск такої кількості експериментів з часом “зіпсує” валідаційний набір?”. Страх полягає в тому, що з великою кількістю агентів параметри будуть оптимізовані під конкретні особливості тестових даних, а не під загальний інтелект.

Значення здобутку: Користувач samionb поставив під сумнів, чи дійсно зниження з 0.9979 до 0.9697 є помітним. Відповідь Карпаті була типово прямою: “Ми просто оптимізуємо продуктивність на одиницю обчислювальної потужності… це реальні та суттєві здобутки”.

Людський елемент: У X користувач witcheer, керівник відділу зростання криптоплатформи Yari Finance, документував свій нічний запуск на Mac Mini M4, зазначивши, що хоча 26 з 35 експериментів зазнали невдачі або збій, сім, що були успішними, виявили, що “модель покращилася, ставши простішою”.

Цей висновок — що менше часто означає більше — був досягнутий без жодного людського втручання.

Майбутнє: цікавість як вузьке місце

Випуск autoresearch натякає на майбутнє досліджень у різних сферах, де завдяки простим механізмам інструкцій ШІ роль людини зміщується від “експериментатора” до “дизайнера експериментів”.

Оскільки такі інструменти, як DarkMatter, Optimization Arena та NanoClaw, з’являються для підтримки цього рою, вузьким місцем прогресу ШІ більше не є здатність “м’ясного комп’ютера” (як Карпаті називає людський мозок) писати код — це наша здатність визначати обмеження пошуку.

Андрій Карпаті знову змінив “вайб”. Ми більше не просто пишемо моделі; ми створюємо екосистеми, які навчаються, поки ми спимо.

Прогноз ІТ-Блогу: Система autoresearch, ймовірно, стане основою для нового покоління дослідницьких інструментів, автоматизуючи значну частину процесу оптимізації в науці та бізнесі. Це може призвести до прискорення відкриттів та впровадження інновацій, але також вимагатиме переосмислення ролі людини у дослідницьких процесах.

Подробиці можна знайти на сайті: venturebeat.com

Autoresearch поширюється далеко і широко

Замість 30 маркетингових експериментів на рік — 36 500

Обговорення спільноти та “псування” валідаційного набору

Майбутнє: цікавість як вузьке місце

Залишити відповідьСкасувати відповідь