Шалений попит на обчислювальні потужності для запуску моделей штучного інтелекту продовжує зростати, проте на шляху до задоволення цього попиту стоять дві головні перешкоди: доступ до правильних чіпів та їх ефективне розміщення в дата-центрах, де вони зможуть генерувати прибуток.
Компанія General Compute, що позиціонує себе як новий “неоклауд” для інференсу (виведення, тобто фаза роботи вже навченої моделі ШІ, коли вона відповідає на запити користувачів, а не навчається), запропонувала рішення цих викликів. Це допомогло їй залучити 15 мільйонів доларів початкового фінансування (seed round) з оцінкою компанії в 60 мільйонів доларів після інвестицій. Лідером раунду виступила компанія FUSE VC за участі Carya Venture Partners та Village Global Ventures.
Вибір оптимальних чіпів для інференсу
Перш за все, розглянемо питання вибору правильних чіпів. Попит на графічні процесори (GPU) сягнув небесних висот, але вже стає загальновизнаною думкою, що вони не є найкращим вибором для запуску моделей ШІ після їх навчання. Фаза активної генерації відповідей моделлю має інші обчислювальні вимоги, ніж процес тренування. Саме тому з’являється новий клас спеціалізованих чіпів, розроблених саме для цієї мети. Показовими є угода Nvidia з Groq на 20 мільярдів доларів у грудні та нещодавнє IPO Cerebras обсягом 57 мільярдів доларів минулого тижня.
В умовах обмежених потужностей у згаданих компаній, співзасновники General Compute, CEO Фінн Пукловскі та CTO Джейсон Гудісон, знайшли альтернативний шлях. Вони роблять ставку на спеціалізовані чіпи від SambaNova, чипмейкера, що підтримується Intel і зосереджений на інференсі. Хоча SambaNova останнім часом дещо випала з поля зору Кремнієвої долини, ситуація може змінитися.
Переваги чіпів SambaNova
SambaNova планує випустити нові чіпи цього року. Їхня архітектура є більш гнучкою і використовує більше пам’яті для зберігання контексту під час обчислень для інференсу. SambaNova стверджує, що ці чіпи перевершують за продуктивністю не лише GPU, але й інші спеціалізовані рішення від Groq чи Cerebras. Пукловскі зазначає, що нові чіпи зможуть генерувати від 600 до 700 токенів на секунду, тоді як GPU показують результат близько 250 токенів на секунду.
General Compute вже розмістила замовлення на чіпи SN50 від SambaNova на суму 300 мільйонів доларів і заявляє, що буде першим “неоклаудом”, який їх розгорне.
Вирішення проблеми розміщення інфраструктури
Ці чіпи також допомагають General Compute вирішити другу ключову проблему – місце для їх розміщення. Чіпи SambaNova мають повітряне охолодження, а не водяне, і споживають менше енергії. Це дозволяє встановлювати їх у існуючих дата-центрах без необхідності значних інвестицій у нову інфраструктуру.
Пукловскі активно укладає угоди про колокацію (розміщення власного обладнання в чужих дата-центрах). Це стосується не лише традиційних провайдерів дата-центрів, але й компаній, що займаються майнінгом криптовалют. Останні прагнуть перепрофілювати свою інфраструктуру, адже вартість виробництва біткоїна часто перевищує його ринкову ціну.
General Compute минулого тижня запустила свою хмарну послугу, стверджуючи, що вона вже є найшвидшою у запуску MiniMax 2.7 – потужної відкритої великої мовної моделі (LLM).
Погляд інвестора
Джо Хассельманн, венчурний інвестор, який одним з перших побачив потенціал у сфері інференсу, інвестувавши в Groq ще у 2021 році, запустив новий фонд Evercrest Capital Partners, що спеціалізується на ШІ. General Compute стала однією з його перших інвестицій. Хассельманн вбачає паралелі між партнерством SambaNova та General Compute та взаємодією CoreWeave з Nvidia, а також поєднанням розробки чіпів Groq з їхнім попереднім хмарним сервісом.
“Їм потрібен збалансований портфель клієнтів, які розміщуватимуть свої чіпи в середовищах з високим потенціалом зростання,” – зазначає Хассельманн. – “Наскільки General Compute робить ставку на SambaNova, настільки ж SambaNova робить ставку на General Compute.”
Майбутнє хмар для інференсу
Ключове питання полягає в тому, яка комп’ютерна архітектура стане найбільш цінною у майбутньому ШІ. Хмари для інференсу роблять ставку на світ, де існує безліч моделей та агентів, де жоден окремий провайдер не домінує, а швидкість та вартість інференсу стають головними конкурентними перевагами. Показовим є залучення 113 мільйонів доларів серії B компанією OpenRouter цього тижня, що відображає її здатність надавати клієнтам доступ до різних моделей для оптимізації витрат на токени.
Швидкість має вирішальне значення як для ціни, так і для функціональності. Пукловскі прагне скоротити час виконання завдань для кодуючих агентів з однієї години до п’яти-десяти хвилин, а також зробити аудіо-агентів для обслуговування клієнтів, яким для ефективної взаємодії потрібен швидший інференс, більш економічно вигідними.
“Якщо ви використовуєте ChatGPT, і він видає вам 50 токенів за секунду, це все одно набагато швидше, ніж ми можемо читати,” – сказав Пукловскі TechCrunch. – “Тепер, коли все перейшло на рівень взаємодії агент-до-агента, де агенти читають інформацію від нашого імені або звертаються до баз даних, їм потрібно працювати ще швидше.”
Думка ІТ-Блогу: Зростання ринку хмар для інференсу свідчить про перехід від універсальних рішень до спеціалізованих, де швидкість та оптимізація витрат стають ключовими факторами конкурентоспроможності. Це відкриває нові можливості для компаній, що пропонують інноваційні апаратні та програмні рішення.
Подробиці можна знайти на сайті: techcrunch.com
