Вчені навчили потужний ШІ-застосунок за $1,500: економія та інновації

Інноваційний підхід до навчання мовних моделей: HRM-Text революціонізує економіку ШІ

Вартість навчання фундаментальних великих мовних моделей (LLM) з нуля сягає мільйонів доларів та вимагає доступу до величезних обсягів даних, що робить цей процес недоступним для більшості підприємств. Компанія Sapient пропонує інший, значно економніший шлях.

Ефективність архітектури HRM-Text

На противагу домінуючій парадигмі “грубої сили” масштабування, дослідники Sapient розробили HRM-Text. Ця модель замінює стандартні трансформери на високоефективну ієрархічну рекурентну модель (HRM), архітектуру, яку вони представили минулого року. HRM розділяє обчислення на шари, що повільно еволюціонують (стратегічні) та шари, що швидко еволюціонують (виконавчі). На відміну від традиційного авторегресивного передбачення на сирих текстових даних, HRM-Text навчається виключно на парах “інструкція-відповідь”. Такий підхід максимально наближений до реальних бізнес-сценаріїв, де користувачі зазвичай очікують конкретної відповіді на певне завдання. Завдяки цьому, вдалося навчити модель HRM-Text з 1 мільярдом параметрів з нуля, витративши значно менше ресурсів і токенів порівняно зі звичайними LLM. Її продуктивність на ключових галузевих бенчмарках виявилася конкурентоспроможною з набагато більшими відкритими моделями. Це означає, що фундаментальне попереднє навчання більше не є ексклюзивною прерогативою організацій з величезними ресурсами. HRM-Text дозволяє підприємствам економічно ефективно створювати власні потужні моделі для міркування, які можна інтегрувати з зовнішніми базами знань.

Вузьке місце тренування: неефективність сучасних LLM

Процес навчання LLM часто витрачає мільйони доларів на обчислювальні потужності, змушуючи моделі запам’ятовувати величезні обсяги інформації з Інтернету, щоб опосередковано навчитися мислити. Це призводить до марнування ресурсів, адже моделі витрачають цінний час на реконструкцію вхідного запиту, який вже відомий під час висновку. Генеральний директор Sapient Intelligence, Гуань Ванг, розглядає це не просто як обчислювальний виклик, а як серйозне бізнес-обмеження, що впливає на “економіку ітерацій”. Він зазначає: “Підприємства сьогодні стикаються з трьома проблемами, що посилюються: навчання дороге, інфраструктура громіздка, а цикли експериментування занадто повільні. Галузева одержимість масштабуванням диктує: ‘Коли модель не справляється, робіть її більшою. Додавайте дані. Додавайте GPU’. Це працювало, але досягає точки спадної віддачі. Більший масштаб часто означає більше запам’ятовування, більше затримок, більше інфраструктури та залежності від постачальників. Це не обов’язково дає підприємству кращий механізм міркування”. Така неефективність архітектури та обчислень робить доналаштування (fine-tuning) існуючих щільних трансформерів не завжди оптимальним рішенням для підприємств. Доналаштування для збереження загальних можливостей моделі часто вимагає значної кількості загальних даних, що робить процес обчислювально затратним і складним для контролю. Ванг підкреслює: “Уявіть хедж-фонд, страхову компанію або банк, що володіє високоприватними даними: внутрішніми дослідницькими нотатками, логікою транзакцій, правилами відповідності, меморандумами аналітиків, моделями ризиків, обмеженнями портфеля. Вони можуть не захотіти надсилати ці дані зовнішній передовій моделі, і їм може не знадобитися величезна універсальна модель, яка запам’ятала весь Інтернет. Їм потрібне компактне ядро міркування, яке може вивчити структуру їхнього завдання, міркувати на основі правил і чисел, і працювати в контрольованому середовищі”. HRM-Text, зосереджуючи обчислення на виконанні завдань та прихованому міркуванні, дозволяє підприємствам почати з меншої, але розумнішої моделі та адаптувати її до власного домену з мінімальними витратами на інфраструктуру.

Переосмислення архітектур з HRM-Text

HRM, представлена у 2025 році, кардинально відрізняється від традиційних трансформерів. Для створення більш ефективного рушія, HRM розділяє обчислення на повільно еволюціонуючий стратегічний шар (H-модуль) та швидко еволюціонуючий виконавчий шар (L-модуль). L-модуль виконує локальне ітеративне уточнення, тоді як H-модуль підтримує стабільний семантичний контекст між циклами. Процес обробки складається з двох високорівневих циклів, кожен з яких включає три швидкі оновлення L-модуля та одне повільне оновлення H-модуля.

Вчені навчили потужний ШІ-застосунок за $1,500: економія та інновації 1

Хоча прості рекурентні архітектури можуть справлятися з невеликими логічними завданнями, розробники Sapient виявили, що при масштабуванні до мільярда параметрів для мовних завдань вони стають вкрай нестабільними. Розділення повільного H-модуля та швидкого L-модуля в HRM є математично обґрунтованим. Як зазначає Ванг: “Для логічних сіток іноді можна обійтися крихітним рекурсивним механізмом, оскільки світ чіткий і обмежений. Мова не така. Мові потрібне як швидке локальне уточнення, так і повільна семантична стабільність”. Хоча початковий HRM виявився ефективним для контрольованих, символічних міркувань, розробники зіткнулися з труднощами при його застосуванні до величезної, відкритої складності загального мовного моделювання. Петлі HRM, які роблять його ефективним мислителем, також призводять до математичної нестабільності при навчанні на різноманітному хаосі людської мови, зокрема до вибухових або згасаючих градієнтів.

Вчені навчили потужний ШІ-застосунок за $1,500: економія та інновації 2

Щоб запобігти цьому циклу зворотного зв’язку в нейромережі, дослідники впровадили дві ключові архітектурні інновації в HRM-Text. По-перше, вони розробили MagicNorm – спеціалізовану техніку нормалізації, призначену для збереження стабільності внутрішніх сигналів, незалежно від кількості циклів міркування моделі. По-друге, вони розробили метод “розминки” (warm-up) для стабілізації навчання. На ранніх етапах навчання модель оцінюється лише на коротких, поверхневих циклах міркування. З прогресом навчання система “розмивається”, поступово надаючи моделі глибші та довші послідовності міркування. Також було змінено мету навчання з передбачення наступного токена на завершення завдання, де модель отримує винагороду лише за повну відповідь, а не за окремі згенеровані токени. Для досягнення цієї мети дані для навчання HRM-Text були змінені з необроблених текстів на виключно пари “інструкція-відповідь”.

HRM-Text у дії: вражаючі результати

Дослідники створили надзвичайно компактну модель HRM-Text з 1 мільярдом параметрів. Замість стандартного багатоетапного конвеєра, що вимагає обробки трильйонів слів сирого інтернет-тексту, вони навчили її з нуля на ретельно відібраному наборі даних обсягом лише 40 мільярдів токенів. Навчальні дані включали виключно пари “інструкція-відповідь” для загальних інструкцій, математики, символічної логіки, вправ з підручників та переписаних знань. Модель навчалася з використанням мети завершення завдання. Щоб змусити модель покладатися на свою внутрішню ієрархічну архітектуру, а не на копіювання покрокової логіки, розробники явно вилучили “логічні” токени з навчальних даних. Модель оцінювалася за різноманітним набором стандартних бенчмарків фундаментального ШІ, з акцентом на знання, міркування, логіку, математику та розуміння. Дослідники порівняли HRM-Text як з малими моделями, так і з високоресурсними відкритими моделями. Результати демонструють значний зсув у співвідношенні обчислень до продуктивності. 1-мільярдна модель HRM-Text досягла:

60.7% на MMLU
84.5% на GSM8K
56.2% на MATH

Ця продуктивність є дуже конкурентоспроможною (а в деяких випадках перевищує) показники моделей з 2-7 мільярдами параметрів, проти яких вона тестувалася.

Вчені навчили потужний ШІ-застосунок за $1,500: економія та інновації 3

Найважливіший висновок для корпоративного сегменту – це статистика ефективності та практичні наслідки. Попереднє навчання фундаментальної моделі з нуля зазвичай є багатомільйонною інвестицією, доступною лише технологічним гігантам. HRM-Text було навчено всього за 1.9 дня на кластері з 16 GPU. Загальна оціночна вартість обчислень склала приблизно 1500 доларів США. Модель досягла конкурентоспроможних показників, використовуючи в 100-900 разів менше навчальних токенів та в 96-432 рази менше обчислювальних ресурсів порівняно з такими моделями, як Qwen, Gemma та Llama. Ще один важливий аспект – відокремлення міркування від запам’ятовування знань. Практично, успіх HRM-Text у завданнях, що вимагають складних міркувань, попри крихітний обсяг навчальних даних (40 мільярдів токенів), доводить, що моделі не потрібно запам’ятовувати весь Інтернет, щоб стати ефективним рушієм міркування. Для корпоративних застосувань така поведінка є перевагою. Розробники пропонують бачити майбутнє, де компанії використовують компактні, надзвичайно дешеві рекурентні моделі, що діють як “ядро міркування”, спеціалізоване для бізнес-логіки. Замість того, щоб змушувати модель запам’ятовувати бази даних компанії під час попереднього навчання, вона виступає як рушій міркування, покладаючись на зовнішні системи пошуку для отримання фактичних знань. Критики зазначають, що навчання на парах “інструкція-відповідь” робить порівняння з моделями, навченими на сирих даних, некоректним (“яблука проти апельсинів”). Ванг заперечує це, вказуючи, що всі сучасні LLM отримують дані “інструкція-відповідь” під час навчання або вирівнювання. “Отже, це порівняння не яблук проти апельсинів. Це скоріше яблучні серцевини проти яблук. Ми почали безпосередньо з основного формату завдання, тому що саме так люди використовують моделі: вони дають інструкцію і очікують корисну відповідь”, – каже він. Дослідники також провели ретельні тести на забруднення даних, щоб переконатися, що модель не просто запам’ятовувала відповіді з бенчмарків. На DROP, єдиному бенчмарку, де було виявлено незначний сигнал забруднення за певних умов, HRM-Text все ж продемонструвала вражаючі 81.1% на строго чистому підмножині даних (0% забруднення). Зрештою, Ванг стверджує, що для підприємств “правильною оцінкою є не перевірка дрібниць. Це оцінка робочого процесу… Надайте HRM-Text завдання, наприклад: багатоетапне фінансове міркування, логіку відповідності нормам, автоматизацію наукових робочих процесів, структурування даних з наступним міркуванням”.

Практична реалізація та майбутнє корпоративного ШІ

Хоча показники бенчмарків та економія коштів вражають, Sapient чітко окреслює поточні обмеження моделі. Перший реліз слід розглядати як доказ концепції, подібний до ранніх релізів GPT, розроблений для демонстрації унікальних переваг архітектури. “Чесно кажучи, HRM-Text ще не є готовою заміною ChatGPT”, – визнає Ванг. “Це компактна фундаментальна мовна модель для міркування. Для інженерної команди підприємства операційна робота в основному пов’язана з шаблонами, вибором режиму, маскуванням уваги та вирівнюванням”. Для команд, що займаються розробкою ШІ та бажають експериментувати, початок роботи вимагає певної специфічної, але стандартної дисципліни генерації тексту. Модель підтримується бібліотекою Transformers (вимагає transformers >= 5.9.0), і активно розробляються шляхи використання для vLLM та SGLang. Основне інженерне завдання полягає в керуванні дизайном PrefixLM: виробничі багатооборотні чат-додатки вимагатимуть ретельної логіки KV-кешування, щоб забезпечити повну двосторонню увагу до запитів користувача, тоді як виходи асистента залишатимуться причинно-наслідковими. “Коли вартість навчання здатної моделі міркування впаде приблизно до 1500 доларів США, ШІ перестане бути лише питанням інфраструктури і стане питанням стратегії”, – підкреслює Ванг. “Компанія зі списку Fortune 500 більше не буде запитувати: ‘Чи можемо ми дозволити собі фундаментальну модель?’ Вона запитає: ‘Що модель повинна знати про наш бізнес, і на який тип міркування її слід оптимізувати?'” *** Прогноз ІТ-Блогу: Архітектура HRM-Text, що фокусується на ефективності та відокремленні міркування від запам’ятовування, може стати ключовим фактором у демократизації доступу до потужних ШІ-рішень для бізнесу. Очікується, що в найближчі 1-2 роки ми побачимо появу спеціалізованих “робочих конячок” ШІ, оптимізованих для конкретних корпоративних завдань, що значно зменшить залежність від гігантських, універсальних моделей.

Інформація підготовлена на основі матеріалів: venturebeat.com