Компанія NVIDIA представила радикальне оновлення для сучасних AI-систем – перший у світі довгоконтекстний AI-двигун, здатний обробляти мільйони слів і паралельно взаємодіяти з десятками користувачів у режимі реального часу. Нову архітектуру під назвою Helix Parallelism було створено спеціально для обчислювальної платформи Blackwell, що дозволяє вивести ефективність обробки довгих контекстів на принципово новий рівень.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

В основі нововведення – ідея забезпечити AI-моделі можливістю аналізувати гігантські масиви попередніх даних (так званий “контекст”) і водночас підтримувати високу швидкість реагування, що є критично важливим для багатокористувацьких сценаріїв: від чат-ботів до юридичних асистентів.

Сучасні великі мовні моделі стикаються з двома технічними вузькими місцями. По-перше, щоразу, коли AI генерує новий фрагмент тексту, йому потрібно заново прочитати всю історію попередніх токенів, збережених у кеші KV – це створює гігантське навантаження на пам’ять GPU. По-друге, під час кожного кроку генерації модель змушена перезавантажувати з пам’яті ваги шару прямого поширення (FFN), що ще більше уповільнює роботу – особливо у живому чаті. До цього часу використовувався тензорний паралелізм (TP), який розподіляв обчислення між кількома графічними процесорами. Але при зростанні масштабу GPU починали дублювати кеш KV, що лише погіршувало ситуацію з пам’яттю.

Інновація NVIDIA – у новому підході до трансформерних шарів. Система Helix розділяє їх на дві частини: обчислення уваги (Attention) та FFN, і обробляє їх незалежно. На етапі уваги використовується нова техніка – KV Parallelism (KVP), яка розподіляє кеш KV між GPU без дублювання. Кожен графічний процесор працює лише зі своєю частиною історії токенів, що значно знижує навантаження на пам’ять і прискорює обробку. Далі система перемикається на класичний TP для обчислень у FFN-шарі. Така динамічна зміна режимів дозволяє ефективно задіяти ресурси графічних процесорів і мінімізувати простої.

Завдяки архітектурі NVLink та NVL72, дані швидко переміщуються між GPU без втрати пропускної здатності, а нова технологія HOP-B дозволяє паралелізувати обчислення та передавання даних, ще більше зменшуючи затримки.

У моделюванні з гігантською моделлю DeepSeek-R1 671B, яка здатна опрацьовувати контекст до 1 мільйона токенів, технологія Helix забезпечила обслуговування у 32 рази більшої кількості користувачів без збільшення затримки у відповідях. Навіть у складних багатокористувацьких сценаріях Helix зберігає стабільну пропускну здатність і контрольоване споживання пам’яті. Завдяки механізму кільцевого оновлення кешу KV, система уникає пікових перевантажень та збоїв у роботі GPU.

&pp=ygUeTlZJRElBIEJsYWNrd2VsbC1wb3dlcmVkIE5WTDcy

Ця технологія відкриває нові горизонти для використання великих мовних моделей – зокрема, у віртуальних асистентах, юридичних системах, аналітичних платформах та розширених чатах, де потрібна одночасна взаємодія з багатьма користувачами та обробка довгих розмов. Helix дає змогу масштабувати AI не лише за розміром моделі, але й за швидкістю обслуговування без втрати продуктивності – ключова перевага в епоху багатокористувацьких AI-рішень і складних довготривалих завдань.

Читайте також:

Джерелоinterestingengineering

Підписатися

0 Comments

Найновіше

НайстарішіНайбільше голосів

Інші статті

NVIDIA запускає AI нового покоління: мільйон слів і 32 потоки у реальному часі

Останні коментарі