Intel Xeon та Optane: ентузіаст створив потужний "суперкомп'ютер" для LLM

Збирати комп’ютер для ШІ за $4000 зовсім необов’язково! Ентузіаст з Reddit під ніком APFrisco довів це, створивши доволі бюджетну систему на базі вживаних компонентів Intel, яка здатна локально запускати велику мовну модель (LLM) Kimi K2.5 з астрономічним 1 трильйоном параметрів.

Родзинкою цієї збірки є використання модулів Intel Optane DIMM як основної оперативної пам’яті. Хоча Intel Optane, розроблена для прискорення сховищ даних, вже давно знята з виробництва, ці модулі пропонують цікавий компроміс. За інформацією Tom’s Hardware, шість планок Intel Optane DCPMM PC4-2666 NMA1XBD128GQS об’ємом 128 ГБ кожна забезпечують нижчі затримки порівняно з найшвидшими SSD, але все ще поступаються сучасній DDR4/DDR5 пам’яті вдвічі-втричі. Автор проекту зазначає, що йому вдалося придбати їх значно дешевше, ніж коштувала б еквівалентна кількість традиційної DRAM.

“Optane PMem – це пам’ять у форм-факторі DIMM, яка розташовується десь між DRAM та SSD. Intel припинила випуск цієї лінійки, і я знайшов планки на вторинному ринку значно дешевше, ніж коштувала б еквівалентна кількість DRAM. Саме ця величезна ємність PMem (768 ГБ) дозволяє розміщувати такі гігантські моделі в системі. У моїй конфігурації PMem працює в режимі пам’яті, тобто комп’ютер бачить її як оперативну пам’ять, а планки DRAM використовуються як кеш”, – пояснює APFrisco.

Серцем системи став процесор Intel Xeon Gold 6246, встановлений на материнську плату Tyan S5630GMRE-CGN. Доповнює конфігурацію відеокарта Asus Dual GeForce RTX 3060 OC з 12 ГБ відеопам’яті, шість модулів Samsung DDR4 ECC DRAM об’ємом 32 ГБ кожен з частотою 2666 МГц, а також швидкісний накопичувач WD SN850X об’ємом 2 ТБ у форматі M.2 2280 NVMe. Живлення забезпечує блок живлення ASRock Steel Legend SL-850G потужністю 850 Вт з сертифікацією 80 PLUS GOLD. Все це розміщено в елегантному корпусі Silverstone SST-GD08B (Black) Grandia.

Для роботи з моделлю Kimi K2.5, яка використовує архітектуру “змішаних експертів”, автор застосував гібридний підхід виведення даних, задіюючи як відеокарту, так і центральний процесор за допомогою llama.cpp. Відеокарта тут виступає в ролі оптимізатора для ключових компонентів маршрутизації моделі.

APFrisco цілком задоволений отриманою продуктивністю, яка сягає близько 4 токенів за секунду. “Враховуючи, що це топова модель з трильйоном параметрів, яка працює на такому обмеженому бюджеті, я вважаю це величезним досягненням”, – підкреслює він. Також автор висловив жаль щодо припинення виробництва Intel Optane, адже ця технологія відкрила нові можливості для створення потужних, але відносно доступних систем.

## Технічні характеристики

Процесор: Intel Xeon Gold 6246
Материнська плата: Tyan S5630GMRE-CGN
Оперативна пам’ять (Optane): 6 x 128 ГБ Intel Optane DCPMM PC4-2666 NMA1XBD128GQS (загалом 768 ГБ)
Оперативна пам’ять (DRAM): 6 x 32 ГБ Samsung DDR4 ECC DRAM 2666 МГц
Відеокарта: Asus Dual GeForce RTX 3060 OC 12 ГБ
Накопичувач: WD SN850X 2 ТБ M.2 2280 NVMe
Блок живлення: ASRock Steel Legend SL-850G 850W 80 PLUS GOLD
Корпус: Silverstone SST-GD08B (Black) Grandia

Продуктивність

Система демонструє швидкість генерації тексту близько 4 токенів за секунду при роботі з LLM Kimi K2.5 (1 трлн параметрів).

Чи варто купувати? (Порада ІТ-Блогу): Ця збірка демонструє, що для запуску складних LLM не завжди потрібні найновіші та найдорожчі компоненти. Використання вживаних модулів Intel Optane та потужного серверного процесора дозволило отримати вражаючий об’єм пам’яті за відносно невеликі гроші. Хоча продуктивність у 4 токени/секунду не є рекордною, для багатьох завдань, особливо враховуючи вартість системи, це чудовий результат. Це рішення для тих, хто шукає оптимальне співвідношення ціни та продуктивності для експериментів з великими мовними моделями, готовий миритися з певними компромісами щодо швидкості.

Оригінал статті: mezha.ua

Intel Xeon та Optane: ентузіаст створив потужний “суперкомп’ютер” для LLM

Продуктивність

Залишити відповідьСкасувати відповідь

Сем Альтман продовжує переконувати, що ChatGPT може стати вашим батьком

Цей $9 ключ фізично блокує ваші найзалежніші додатки

Охолодження для Ryzen 7 9800X3D: 3D-друкована “димниця” збавила температуру на 19°C, але надто висока для будь-якого ПК