
Для подальшого вдосконалення систем штучного інтелекту (ШІ) у сфері інтелектуальної праці необхідний або надійний механізм автономного самовдосконалення, або людські експерти, здатні виявляти помилки та надавати високоякісний зворотний зв’язок. Індустрія зробила колосальні інвестиції в перший варіант, практично ігноруючи другий.
Я стверджую, що до проблеми людської оцінки слід ставитися з такою ж суворістю та інвестиціями, як і до розробки самих можливостей моделей. Найм випускників у великих технологічних компаніях скоротився вдвічі з 2019 року. Аналіз документів, первинне дослідження, очищення даних, рев’ю коду — все це тепер виконується моделями. Економісти називають це витісненням, компанії — ефективністю. Але ніхто не зосереджується на майбутній проблемі.
Чому самовдосконалення має обмеження у сфері інтелектуальної праці
Очевидною контраргументом є навчання з підкріпленням (reinforcement learning, RL). AlphaZero вивчив ґо, шахи та шоґі на суперлюдському рівні без людських даних, генеруючи при цьому новітні стратегії. Хід 37 у матчі 2016 року проти Лі Седоля, який професіонали вважали б неможливим, з’явився не завдяки людським анотаціям, а в процесі самостійної гри ШІ.
Ключовим фактором для цього є стабільність середовища. Хід 37 — це нова стратегія в межах фіксованого простору станів ґо. Правила гри є повними, однозначними та незмінними. Важливо, що сигнал винагороди є досконалим: перемога або поразка, негайно й без можливості двозначного тлумачення. Система завжди знає, чи був хід вдалим, оскільки гра врешті-решт закінчується чітким результатом.
Інтелектуальна праця не має жодної з цих властивостей. Правила в будь-якій професійній галузі є динамічними та постійно переписуються людьми, які в ній працюють. Ухвалюються нові закони. Вигадуються нові фінансові інструменти. Юридична стратегія, яка працювала у 2022 році, може зазнати невдачі в юрисдикції, яка з того часу змінила своє тлумачення. Чи був медичний діагноз правильним, може стати відомо лише через роки. Без стабільного середовища та однозначного сигналу винагороди неможливо замкнути цикл. Для продовження навчання моделі потрібні люди в ланцюжку оцінки.
Проблема формування експертизи
ШІ-системи, що створюються сьогодні, навчалися на досвіді людей, які пройшли саме такий процес формування. Різниця полягає в тому, що молодші позиції, які розвивали такий досвід, були автоматизовані в першу чергу. Це означає, що наступне покоління потенційних експертів не накопичує той вид суджень, який робить людського оцінювача цінним у процесі.
Історія знає приклади втрати знань. Римський бетон. Техніки готичного будівництва. Математичні традиції, на відновлення яких пішли століття. Але в кожному історичному випадку причина була зовнішньою: чума, завоювання, колапс інституцій, які зберігали знання. Тут відмінність у тому, що жодна зовнішня сила не потрібна. Галузі можуть занепадати не через катастрофу, а через тисячі індивідуально раціональних економічних рішень, кожне з яких окремо є доцільним. Це новий механізм, і ми ще не навчилися його розпізнавати в процесі.
Коли цілі галузі замовкають
У своєму логічному завершенні це не просто проблема конвеєра. Це колапс попиту на саму експертизу.
Розглянемо вищу математику. Вона не атрофується, тому що ми припиняємо готувати математиків. Вона атрофується, тому що організації перестають потребувати математиків у своїй повсякденній роботі, зникає економічний стимул ставати таким фахівцем, скорочується кількість людей, здатних до передових математичних міркувань, і спокійно колапсує здатність галузі генерувати нові ідеї. Та ж логіка застосовується до програмування. Наше питання не “чи напише ШІ код”, а “якщо ШІ писатиме весь продакшн-код, хто розроблятиме глибоку архітектурну інтуїцію, яка створює справді нові системні дизайни?”.
Існує критична різниця між автоматизацією галузі та її розумінням. Сьогодні ми можемо автоматизувати значну частину будівельного проектування, але абстрактні знання про те, чому певні підходи працюють, живуть у головах людей, які роками робили це неправильно. Якщо ви усуваєте практику, ви втрачаєте не лише практиків. Ви втрачаєте здатність знати, що саме ви втратили.
Вища математика, теоретична інформатика, глибокі юридичні міркування, архітектура складних систем: коли останній фахівець, який глибоко розуміє підгалузь алгебри, виходить на пенсію, і його ніхто не замінює через скорочення фінансування та зникнення кар’єрного шляху, ці знання, ймовірно, не будуть перевідкриті найближчим часом.
Вони зникнуть. І ніхто не помітить, оскільки моделі, навчені на їхній роботі, ще десять років демонструватимуть високі результати на бенчмарках. Я називаю це “випорожненням”: поверхнева спроможність залишається (моделі все ще можуть видавати результати, що виглядають експертними), тоді як базова людська спроможність перевіряти, розширювати або коригувати цю експертизу тихо зникає.
Чому рубрики не є повною заміною
Поточний підхід — це оцінка на основі рубрик. Конституційний ШІ (Constitutional AI), навчання з підкріпленням на основі відгуків ШІ (RLAIF) та структуровані критерії, що дозволяють моделям оцінювати моделі, є серйозними техніками, які суттєво зменшують залежність від людських оцінювачів. Я не применшую їхніх переваг.
Їхнє обмеження полягає в наступному: рубрика може охопити лише те, що автор рубрики вважав за потрібне виміряти. Оптимізуючи її, ви отримуєте модель, яка дуже добре відповідає рубриці. Але це не те саме, що модель, яка є насправді правильною.
Рубрики масштабують явну, артикульовану частину суджень. Глибша частина — інстинкт, відчуття, що щось не так — не вписується в рубрику. Ви не можете записати це, тому що вам потрібно спочатку відчути це, щоб знати, що саме писати.
Що це означає на практиці
Це не заклик до уповільнення розробки. Зростання можливостей є реальним. І можливо, дослідники знайдуть способи замкнути цикл оцінки без людського судження. Можливо, синтетичні конвеєри даних стануть достатньо добрими. Можливо, моделі розроблять надійні механізми самокорекції, які ми ще не можемо уявити.
Але сьогодні їх немає. А тим часом ми демонтуємо людську інфраструктуру, яка зараз заповнює цю прогалину, не як свідоме рішення, а як побічний продукт тисяч раціональних дій. Відповідальний підхід до цього переходу — не припускати, що проблема вирішиться сама собою. Це розглядати прогалину в оцінці як відкриту дослідницьку проблему з тією ж терміновістю, з якою ми підходимо до збільшення можливостей.
Те, що ШІ найбільше потребує від людей, — це те, на чому ми найменше зосереджуємося зберегти. Незалежно від того, чи є це назавжди правдою, чи тимчасовою, ціна ігнорування цього залишається тією ж.
Ахмад Аль-Дахле — технічний директор Airbnb.
Ласкаво просимо до спільноти VentureBeat!
Наша програма для запрошених авторів — це місце, де технічні експерти діляться своїми поглядами та надають нейтральні, неупереджені глибокі аналізи ШІ, інфраструктури даних, кібербезпеки та інших передових технологій, що формують майбутнє підприємств.
Читайте більше від нашої програми запрошених авторів — і ознайомтеся з нашими рекомендаціями, якщо ви зацікавлені у внесенні власної статті!
Прогноз ІТ-Блогу: Очікується, що розробники мовних моделей будуть експериментувати з новими формами “навчання на основі людського зворотного зв’язку”, інтегруючи інструменти для більш ефективного збору та аналізу людських оцінок. Це може призвести до появи гібридних підходів, де ШІ самостійно генерує контекст для оцінки, а люди надають критичний зворотний зв’язок, що покращує нюанси та етичні аспекти. Водночас, зростатиме тиск на збереження та документування людської експертизи у ключових галузях.
Дізнатися більше на: venturebeat.com
