Apple створила AI, який визначає дії за звуком і рухами

Компанія Apple опублікувала звіт за результатами дослідження, мета якого полягала у вивченні того, як великі мовні моделі (LLM) можуть аналізувати аудіодані та дані про рух, щоб отримати уявлення про те, що робить користувач.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Нещодавно опублікована наукова робота «Використання LLM для подальшого об’єднання мультимодальних даних датчиків для розпізнавання активності» дозволяє зрозуміти, як Apple розглядає можливість об’єднання даних аналізу за допомогою ШІ-моделей з традиційними даними від датчиків для більш точного розуміння активності користувача. На думку дослідників, це має великий потенціал для підвищення точності аналізу активності, навіть у випадках, коли одних даних від датчиків для цього недостатньо.

«Потоки даних з датчиків надають цінну інформацію про діяльність і контекст для різних додатків, хоча інтеграція додаткової інформації може бути складним завданням. Ми показуємо, що великі мовні моделі можна задіяти для подальшого об’єднання даних при класифікації активності на основі часових рядів, аудіо та даних про рух», – йдеться в роботі Apple.

Дослідники відібрали підмножину даних для різноманітного розпізнавання активності в різних контекстах, наприклад, виконання домашніх справ або занять спортом, з набору даних Ego4D. Було встановлено, що великі мовні моделі досить добре справляються із завданнями, пов’язаними з визначенням того, що робить користувач, аналізуючи звукові та рухові сигнали. Примітно, що вони справляються з такими завданнями досить добре, навіть якщо їх спеціально не навчали цьому. Якщо ж їм надати лише один приклад для навчання, то точність відразу значно підвищується. Відзначається, що LLM в дослідженні обробляла не сам аудіозапис, а текстовий опис, згенерований аудіомоделями та моделлю руху, яка отримує дані від акселерометра і гіроскопа.

У повідомленні сказано, що в рамках дослідження використовувався набір даних Ego4D, знятих від першої особи. Ці дані містять тисячі годин записів з реального світу, на яких зафіксовані різні ситуації – від домашніх справ до занять спортом і активного відпочинку. «Ми створили набір даних про повсякденні активності з набору Ego4D, виконавши пошук дій з повсякденного життя в наданих текстових описах. Відібраний набір даних включає в себе 20-секундні вибірки з 12 видів активностей: прибирання пилососом, приготування їжі, прання, прийом їжі, гра в баскетбол, гра в футбол, гра з домашніми тваринами, читання книги, робота за комп’ютером, миття посуду, перегляд ТБ, силові тренування. Ці активності були обрані таким чином, щоб охопити спектр домашніх і пов’язаних зі спортом завдань на основі їх широкого поширення в вихідному наборі даних», – йдеться в дослідженні.

Дослідники обробили звукові дані та дані про рух за допомогою невеликих ШІ-моделей, які генерували текстові описи та прогнози щодо категорії активності, після чого дані передавалися в різні LLM (Gemini-2.5-pro і Qwen-32B), щоб оцінити, наскільки добре вони можуть ідентифікувати активність. Потім Apple порівняла продуктивність цих двох ШІ-моделей у різних ситуаціях: в одній з них надавався список із 12 можливих активностей (закритий набір), а в іншій не було жодних варіантів (відкритий набір). Для кожного тесту надавалися різні комбінації текстових розшифровок аудіо, аудіоміток, прогнозів щодо активностей, а також додатковий контекст.

Великі мовні моделі показали значно точніші результати, ніж базові моделі, що працюють тільки з одним типом даних, особливо в складних сценаріях. Найвищої точності вдалося досягти при роботі із закритим набором даних, коли модель повинна була вибирати одну з 12 активностей. При роботі з відкритим набором ШІ-моделі також показали хороші результати, але іноді відповіді були занадто узагальненими або неточними. Gemini-2.5-pro і Qwen-32B показали порівнянні результати з невеликими перевагами одна над одною в різних категоріях, що свідчить про універсальність такого підходу.

Дослідження Apple показує, що ШІ-моделі можуть виступати в ролі потужного і гнучкого інструменту для об’єднання та аналізу мультимодальних даних з мінімальним донавчанням. Це може сприяти створенню більш розумних і контекстно-усвідомлених систем на мобільних пристроях і носимих гаджетах.

Читайте також:

Джерело9to5mac

Підписатися

0 Comments

Найновіше

НайстарішіНайбільше голосів

Інші статті

Apple створила AI, який визначає дії користувача за звуком і рухами

Останні коментарі