S.T.A.L.K.E.R. 2: розробники показали нові скріншоти з гри

Дейв Пламмер, досвідчений розробник програмного забезпечення для Windows, вразив спільноту, запустивши нейромережу на комп’ютері PDP-11, якому вже 47 років. Цей експеримент ставить під сумнів поширені уявлення про складність сучасного штучного інтелекту.

Випробування минулим: ШІ на PDP-11

Основною інфраструктурою для цього зухвалого проєкту став комп’ютер PDP-11, що працює на процесорі з частотою 6 МГц та має всього 64 КБ оперативної пам’яті. На цій, м’яко кажучи, скромній апаратній базі Пламмер успішно запустив модель трансформера під назвою “Attention 11”. Цей застосунок був написаний Демієном Бюре спеціально для архітектури PDP-11, використовуючи мову асемблера.

Простота завдання, глибина суті

На перший погляд, завдання, яке виконує нейромережа – перевертання послідовності з 8 цифр – здається надзвичайно простим. Однак, як пояснює Пламмер, ключовим є не сама задача, а процес навчання. Після успішного виконання кожного кроку, модель повинна засвоїти певне структурне правило, яке дозволить їй виконувати будь-які виведення надалі. Саме в цьому, на думку програміста, криється справжня суть сучасних великих мовних моделей (LLM) з лінійним виведенням, подібних до ChatGPT.

Деконструкція “магії” ШІ

Пламмер підкреслює, що його експеримент руйнує міф про надприродність сучасного штучного інтелекту. “Одна людина бере клас алгоритмів, що наразі сприймаються світом як щось сакральне, й доводить, що це можна скоротити, зрозуміти та реалізувати на системі, достатньо старій, з часів, коли ПЗ виходило з перемикачами й переплетеними в кільця посібниками. Тепер ви знаєте, що це насправді за процес. Це не магія ШІ. Це машина, яка постійно оновлює потужність тисяч маленьких зважених посилань, щоб наступна відповідь була трохи менш неправильною, ніж остання“, – зазначає він.

Технічні виклики та оптимізація

Незважаючи на використання одношарового трансформера з однією головкою уваги (“Attention 11”), повністю реалізованого на асемблері PDP-11, Пламмеру довелося піти на значні оптимізації, щоб врахувати обмеження старої системи. Ця модель має лише 1216 параметрів і працює з обчисленнями з фіксованою точкою, а її точність обмежена 8 бітами. Кожен цикл роботи був оптимізований для того, щоб гарантувати, що модель взагалі зможе завершити процес навчання.

Від здогадки до знання: аналіз процесу навчання

Пламмер описує процес навчання як спостереження за спрощеною анатомією самого процесу. Модель починає з повної невизначеності, з високою ймовірністю помилки. Її точність коливається, подібно до людини, яка намагається зібрати меблі IKEA у фургоні, що рухається. Однак, поступово формується певний шаблон. Механізм уваги починає створювати карту зворотного перетворення, і машина перетинає невидиму межу від стану здогадки до справжнього знання.

Результати експерименту

Експериментатору вдалося досягти 100% точності моделі у перетворенні чисел приблизно після 350 кроків навчання. Для цього на PDP-11/44 з використанням кеш-пам’яті знадобилося близько 3,5 хвилин. За словами Пламмера, сучасний штучний інтелект – це, по суті, механологія, яка відрізняється значно вдосконаленим механізмом виправлення помилок та масивною обчислювальною потужністю.

Думка ІТ-Блогу: Експеримент Дейва Пламмера демонструє, що фундаментальні принципи машинного навчання не змінилися, а сучасні LLM є радше еволюцією, аніж революцією. Це свідчить про те, що потенціал для інновацій у сфері ШІ існує навіть на обмежених ресурсах, стимулюючи розробників шукати більш ефективні архітектури та алгоритми.

За даними порталу: itc.ua