
Довгий час локальні моделі машинного навчання були обмежені обсягом оперативної пам’яті (DRAM), що не дозволяло використовувати моделі з великою кількістю параметрів, на відміну від рішень, що працюють на серверах. Підприємства, що оцінювали можливість впровадження агентних систем, мусили обирати між потужними, але залежними від хмари моделями та менш функціональними локальними рішеннями. Третє покоління базових моделей від Apple, представлене на WWDC26, долає це обмеження, виводячи набір вагових коефіцієнтів за межі DRAM.
Сімейство AFM 3, розроблене у співпраці з Google, включає п’ять моделей: дві для локального використання та три серверні, усі вони працюють у межах безпечного середовища Apple Private Cloud Compute. Серверні моделі, зокрема AFM 3 Cloud Pro для складних завдань та аналізу, використовують GPU від NVIDIA у Google Cloud. Локальна архітектура є власною розробкою Apple. AFM 3 Core Advanced – це модель з 20 мільярдами параметрів, яка зберігає вагові коефіцієнти у флеш-пам’яті NAND, а не в DRAM.
«Замість того, щоб вимагати завантаження всієї моделі в DRAM, повний набір параметрів зберігається у флеш-пам’яті», — зазначила дослідницька команда Apple. «Оскільки пропускна здатність NAND-до-DRAM занадто низька для динамічного обміну вагами токен за токеном, як це потрібно стандартним моделям Mixture of Experts (MoE), AFM 3 Core Advanced приймає рішення про маршрутизацію на рівні запиту (prompt)».
Як працює архітектура
«Стіна пам’яті», яку долає Apple, є типовою проблемою для розробників локального ШІ. «Неможливо розмістити 20 мільярдів параметрів в оперативній пам’яті з прийнятною точністю», — прокоментував Авні Ханнун, дослідник з Anthropic та колишній науковий співробітник Apple, у своєму дописі на X. «Щоб це працювало, вони використовують досить екзотичну за сьогоднішніми стандартами архітектуру. Невелика модель передбачає, на основі запиту, які експерти потрібно завантажити з NAND до RAM».
Цей механізм прогнозування та завантаження складається з трьох окремих компонентів, кожен з яких зумовлений апаратними обмеженнями споживчого обладнання.
Повний набір з 20 мільярдів параметрів зберігається у флеш-пам’яті, а не в DRAM. AFM 3 Core Advanced зберігає свої параметри у флеш-пам’яті NAND, а не в активній пам’яті. Стандартні локальні розгортання вимагають, щоб уся модель поміщалася в DRAM, що обмежує кількість параметрів. Підхід Apple, який вона називає Instruction-Following Pruning (IFP) і який був розроблений спільно з її дослідниками, розглядає флеш-пам’ять як постійне сховище моделі, а DRAM — як робочий буфер для тих експертів, які потрібні для конкретного запиту.
Маршрутизація експертів відбувається один раз на запит, а не на токен. У звичайних моделях Mixture of Experts (MoE) маршрутизатор обирає різних експертів для кожного згенерованого токена. Це вимагало б безперервного переміщення ваг між флеш-пам’яттю та DRAM зі швидкістю інференсу. Пропускна здатність NAND-до-DRAM не може це підтримати. AFM 3 Core Advanced виконує маршрутизацію один раз на етапі обробки запиту, вибирає фіксований набір експертів, завантажує його в DRAM разом із завжди активними спільними експертами та генерує всі токени з цієї конфігурації. «Ключова відмінність від типової MoE полягає в тому, що ви робите це один раз на запит, а потім генеруєте всі токени з тими ж експертами», — зазначив Ханнун.

Кількість активних параметрів масштабується від 1 до 4 мільярдів залежно від складності завдання. Замість використання моделі фіксованого розміру для кожного запиту, AFM 3 Core Advanced адаптує кількість активних параметрів залежно від вимог завдання — від 1 мільярда для простих операцій до 4 мільярдів для складніших, при цьому всі вони залучаються з пулу 20 мільярдів параметрів, що зберігаються у флеш-пам’яті.
Що Apple розкрила, а що ні
Технічна стаття детально описує архітектуру пам’яті та механізм розрідженої активації. Проте, вона менш детальна щодо практичних обмежень розгортання.
Інструменти Apple надають інформацію про час виконання, але не про метрики, що визначають життєздатність виробничого розгортання. «Енергоспоживання, пропускна здатність пам’яті, тепловідведення? Немає в документації», — зазначив Марко Абіс, який розробляє Ziraph, профайлер для локального ШІ на Apple Silicon, у своєму пості на X. «Це помітний пробіл, враховуючи, що саме ці фактори найбільше впливають на продуктивність на пристрої».
Абіс також не знайшов у документації Apple — ані в Core AI docs, ані в Foundation Models docs, ані в розділі про безпеку Private Cloud Compute — інформації про те, коли локальний запит прозоро перенаправляється на сервер, або чи є таке перенаправлення видимим для розробника чи користувача. Для підприємств, яким необхідно документувати місце виконання інференсу, це є прямою проблемою відповідності нормативним вимогам.
Не вся інформація є доступною на даний момент. Apple повідомила, що повний технічний звіт з бенчмарками буде опубліковано пізніше цього літа.
Що це означає для архітекторів підприємств
Галузі, що регулюються і розглядають впровадження агентного ШІ, тепер мають конкретне архітектурне рішення для оцінки.
-
Обмеження DRAM для локальних агентів зміщується. Підприємства, які оцінюють агентні системи, що потребують роботи без звернення до хмари, тепер мають локальний варіант з 20 мільярдами параметрів для оцінки. Обмеження зміщується з можливостей моделі на апаратне забезпечення пристрою.
-
Межа між приватним та хмарним середовищем стає архітектурним рішенням, а не стандартом. Простіші запити обробляються локально; складні агентні завдання перенаправляються на AFM 3 Cloud Pro у Private Cloud Compute. Apple не уточнила публічно, коли саме відбувається перенаправлення запиту або чи є воно видимим для розробника — це створює прогалину, що ускладнює прийняття політик для організацій, які повинні документувати місце виконання інференсу.
-
Серверний рівень агентних систем залежить від Google Cloud. AFM 3 Cloud Pro працює на GPU NVIDIA у Google Cloud. Гарантія Private Cloud Compute забезпечує конфіденційність даних. Однак це не усуває залежності від Google Cloud для серверної обробки.
AFM 3 Core Advanced надає підприємствам локальний варіант з 20 мільярдами параметрів, якого раніше не існувало до WWDC26. Чи буде він придатним для масштабування, залежить від відповідей, які Apple ще не опублікувала. Ці деталі очікуються в літньому технічному звіті.
Прогноз ІТ-Блогу: Архітектура AFM 3 Core Advanced, що використовує флеш-пам’ять для зберігання вагових коефіцієнтів, відкриває нову еру потужних локальних моделей. Очікується, що цей підхід стимулюватиме конкуренцію в галузі мобільних та периферійних обчислень, вимагаючи від виробників чіпів оптимізації швидкості доступу до флеш-пам’яті та розробки ефективних механізмів кешування для прискорення роботи нейромереж.
За даними порталу: venturebeat.com
