Apple знайшла спосіб запускати великі моделі ШІ на телефонах

За останній рік у світі високих технологій відбулися кардинальні зміни, коли штучний інтелект затьмарив метавсесвіт і став головним трендом інтернету. Раптово всі компанії кинулися створювати власні великі мовні моделі (LLM), проте більшість із них працюють у хмарі на потужних серверних конфігураціях. Наразі смартфони не мають достатнього обсягу оперативної пам’яті для запуску найбільших і найпотужніших ШІ-моделей, але компанія Apple заявила, що знайшла рішення. У новій дослідницькій роботі інженери Apple пропонують зберігати параметри LLM у флешпам’яті NAND iPhone, а не в обмеженій мобільній оперативній пам’яті.

Завдяки тому, що Qualcomm, Intel та інші компанії почали активно додавати апаратне забезпечення для машинного навчання в новітні чипи, ваш наступний смартфон матиме майже все необхідне для роботи на ньому локального штучного інтелекту. Проблема в тому, що великі мовні моделі не дарма отримали свою назву – вони реально займають багато місця в оперативній пам’яті. Під час роботи ШІ-моделі в оперативній пам’яті мають зберігатися трильйони параметрів, а в телефонах наразі не так багато оперативної пам’яті, особливо в телефонах Apple, максимальний об’єм яких в iPhone 15 Pro становить лише 8 ГБ.

Прискорювачі штучного інтелекту, що запускають ці ШІ-моделі в центрах обробки даних, оснащуються набагато більшим об’ємом пам’яті порівняно з ігровими відеокартами. Наприклад, у флагманській моделі Nvidia H100 встановлено 80 Гб пам’яті HBM2e проти 24 Гб GDDR6X в ігровій RTX 4090 Ti.

Google зараз працює над розширенням можливостей мобільних LLM за допомогою своєї нової моделі Gemini, яка має “нано”-версію, орієнтовану на смартфони. Нове дослідження компанії Apple спрямоване на те, щоб втиснути в смартфон більшу модель завдяки використанню флешпам’яті NAND, яка, як правило, в 10 разів перевершує об’єм оперативки телефону. Основна проблема полягає у швидкості – флешпам’ять працює набагато повільніше.

Згідно з новим дослідженням, команда інженерів використовувала два методи, щоб змусити свою ШІ-модель працювати без оперативної пам’яті. Обидва вони спрямовані на зменшення обсягу даних, які модель повинна завантажувати зі сховища. Технологія віконної вибірки дозволяє моделі завантажувати в оперативку параметри тільки для останніх токенів, фактично рециркулюючи дані для скорочення звернень до сховища. Також було використано об’єднання рядків і стовпців для більш ефективного групування даних, щоб модель могла обробляти великі шматки даних.

Дослідження також показало, що такий підхід розширює можливості LLM на iPhone. За такого підходу LLM працюють у 4-5 разів швидше на стандартних процесорах і у 20-25 разів швидше на графічних процесорах. Можливо, найголовніше, що iPhone зможе запускати моделі штучного інтелекту, розмір яких удвічі перевищує обсяг встановленої оперативної пам’яті, зберігаючи параметри у внутрішній пам’яті. У дослідженні робиться висновок, що цей підхід може відкрити шлях до запуску LLM на пристроях з обмеженою пам’яттю.

Читайте також:

ДжерелоArxiv

Підписатися

0 Comments

Найновіше

Найстаріші Найбільше голосів

Inline Feedbacks

View all comments

Інші статті

Apple знайшла спосіб запускати великі моделі ШІ на своїх телефонах