Meta викладає код у відкритий доступ штучного інтелекту під назвою ImageBind, який прогнозує зв’язки між даними подібно до того, як люди сприймають або уявляють собі навколишнє середовище. У той час як генератори зображень, такі як Midjourney, Stable Diffusion і DALL-E 2, пов’язують слова із зображеннями, дозволяючи вам створювати візуальні сцени на основі лише текстового опису, ImageBind має ширші можливості. Він може пов’язувати текст, зображення або відео, аудіо, 3D-вимірювання, дані про температуру і дані про рух – і робить це без необхідності попереднього тренування на кожній можливості. Це рання стадія фреймворку, який з часом зможе генерувати складні середовища з таких простих вхідних даних, як текстова підказка, зображення чи аудіозапис (або їхня комбінація).
Ви можете розглядати ImageBind як наближення машинного навчання до людського. Наприклад, якщо ви стоїте в динамічному середовищі, наприклад, на жвавій міській вулиці, ваш мозок (здебільшого несвідомо) поглинає види, звуки та інші сенсорні відчуття, щоб отримати інформацію про автомобілі, що проїжджають повз, високі будівлі, погоду та багато іншого. Люди та інші тварини еволюціонували, щоб обробляти ці дані для наших генетичних переваг: виживання і передачі нашої ДНК. (Чим більше ви знаєте про своє оточення, тим більше ви можете уникнути небезпеки та пристосуватися до свого середовища для кращого виживання і процвітання). Оскільки комп’ютери наближаються до імітації мультисенсорних зв’язків тварин, вони можуть використовувати ці зв’язки, щоб генерувати повністю реалізовані сцени на основі лише обмежених фрагментів даних.
Таким чином, хоча ви можете використовувати Midjourney, щоб створити “бассет-хаунд в костюмі Гендальфа, який балансує на пляжному м’ячі” і отримати відносно реалістичну фотографію цієї дивної сцени, мультимодальний інструмент ШІ, такий як ImageBind, може в кінцевому підсумку створити відео з собакою з відповідними звуками, включаючи детальну вітальню, температуру в кімнаті та точне місцезнаходження собаки й всіх інших учасників сцени. “Це створює відмінні можливості для створення анімації зі статичних зображень, поєднуючи їх зі звуковими підказками”, – зазначають дослідники Meta у своєму блозі, орієнтованому на розробників. “Наприклад, творець може поєднати зображення з будильником і півнем, що кукурікає, і використати звукову підказку для сегментації півня або звук будильника для сегментації годинника та анімувати обидва у відеопослідовності”.
Щодо того, що ще можна зробити з цією новою іграшкою, вона чітко вказує на одну з основних амбіцій Meta: VR, змішана реальність і метапростір. Наприклад, уявіть собі майбутню гарнітуру, яка зможе будувати повністю реалізовані 3D-сцени (зі звуком, рухом тощо) на льоту. Або ж розробники віртуальних ігор могли б з часом використовувати її, щоб позбавити себе значної частини кропіткої роботи в процесі проєктування. Так само творці контенту могли б створювати захоплюючі відео з реалістичним звуковим супроводом і рухом на основі лише тексту, зображень або аудіо. Також легко уявити, як такий інструмент, як ImageBind, відкриває нові двері у сфері доступності, генеруючи мультимедійні описи в режимі реального часу, щоб допомогти людям з вадами зору чи слуху краще сприймати навколишнє середовище.
Також цікаво : Найкращі інструменти на основі штучного інтелекту
“У типових системах штучного інтелекту для кожної відповідної модальності існує специфічне вбудовування (тобто вектори чисел, які можуть представляти дані та їхні взаємозв’язки в машинному навчанні)”, – каже Meta. “ImageBind показує, що можна створити спільний простір вбудовування для декількох модальностей без необхідності тренуватися на даних з кожною окремою комбінацією модальностей. Це важливо, тому що дослідники не можуть створювати набори даних зі зразками, які містять, наприклад, аудіодані та теплові дані з жвавої міської вулиці, або дані про глибину та текстовий опис приморської скелі”.
Meta вважає, що ця технологія з часом вийде за рамки нинішніх шести “чуттів”, так би мовити. “Хоча ми досліджували шість модальностей у нашому поточному дослідженні, ми вважаємо, що введення нових модальностей, які пов’язують якомога більше відчуттів – таких як дотик, мова, нюх і сигнали фМРТ мозку – дозволить створювати багатіші моделі ШІ, орієнтовані на людину”. Розробники, зацікавлені в дослідженні цієї нової пісочниці, можуть почати з занурення у відкритий код Meta.
Читайте також :