AI ImageBind de la Meta poate imita percepția umană

Meta publică codul în inteligența artificială cu acces deschis sub numele imagebind, care prezice relații între date similare cu modul în care oamenii percep sau își imaginează mediul. În timp ce generatoarele de imagini precum Midjourney, Stable Diffusion și DALL-E 2 leagă cuvintele la imagini, permițându-vă să creați scene vizuale bazate doar pe o descriere textuală, ImageBind depășește asta. Poate lega text, imagini sau video, audio, măsurători 3D, date de temperatură și date de mișcare – și face acest lucru fără a fi nevoie de pregătire prealabilă cu fiecare ocazie. Aceasta este o etapă incipientă a unui cadru care va putea în cele din urmă să genereze medii complexe din intrări simple, cum ar fi un mesaj text, imagine sau audio (sau o combinație a acestora).

Vă puteți gândi la ImageBind ca la o aproximare a învățării automate la învățarea umană. De exemplu, dacă te afli într-un mediu dinamic, cum ar fi o stradă aglomerată a orașului, creierul tău (mai ales în mod inconștient) absoarbe imagini, sunete și alte senzații senzoriale pentru a obține informații despre mașini care trec, clădiri înalte, vreme și multe altele. . Oamenii și alte animale au evoluat pentru a procesa aceste date pentru avantajele noastre genetice: supraviețuirea și transmiterea ADN-ului nostru. (Cu cât știi mai multe despre împrejurimile tale, cu atât poți evita pericolul și te poți adapta la mediul tău pentru a supraviețui și a prospera mai bine). Pe măsură ce computerele se apropie de mimarea conexiunilor multisenzoriale ale animalelor, ele pot folosi acele conexiuni pentru a genera scene realizate pe deplin pe baza unor date limitate.

Deci, deși ați putea folosi Midjourney pentru a crea „un câine de basset într-un costum de Gandalf care se echilibrează pe un minge de plajă” și pentru a obține o fotografie relativ realistă a acelei scene ciudate, un instrument AI multimodal precum ImageBind ar putea ajunge să creeze un videoclip cu câinele cu informații relevante. sunete, inclusiv o cameră de zi detaliată, temperatura camerei și locația exactă a câinelui și a tuturor celorlalți din scenă. „Acest lucru creează o oportunitate excelentă de a crea animații din imagini statice, combinându-le cu solicitări audio”, notează cercetătorii Meta pe blogul lor orientat către dezvoltatori. „De exemplu, un creator poate combina o imagine cu un ceas cu alarmă și cu un cocoș care cântă și să folosească un semnal audio pentru a segmenta cocoșul sau sunetul ceasului cu alarmă pentru a segmenta ceasul și le anima pe ambele într-o secvență video.”

În ceea ce privește ce altceva se poate face cu această nouă jucărie, ea indică în mod clar una dintre ambițiile de bază ale lui Meta: VR, realitate mixtă și metaspațiu. De exemplu, imaginați-vă un viitor set cu cască care poate construi scene 3D complet realizate (cu sunet, mișcare etc.) din mers. Sau dezvoltatorii de jocuri virtuale l-ar putea folosi în cele din urmă pentru a economisi o parte semnificativă a muncii minuțioase în procesul de proiectare. De asemenea, creatorii de conținut ar putea crea videoclipuri captivante cu coloane sonore realiste și mișcare bazate doar pe text, imagini sau audio. De asemenea, este ușor să ne imaginăm cum un instrument precum ImageBind deschide noi uși în accesibilitate prin generarea de descrieri multimedia în timp real pentru a ajuta persoanele cu deficiențe de vedere sau de auz să înțeleagă mai bine mediul lor.

Interesant de asemenea: Cele mai bune instrumente bazate pe inteligența artificială

„În sistemele AI obișnuite, există o încorporare specifică (adică, vectori de numere care pot reprezenta date și relațiile lor în învățarea automată) pentru fiecare modalitate relevantă”, spune Meta. „ImageBind arată că este posibil să se creeze un spațiu de încorporare comun pentru mai multe modalități, fără a fi nevoie să se antreneze pe date cu fiecare combinație individuală de modalități. Acest lucru este important pentru că cercetătorii nu pot crea seturi de date cu mostre care conțin, de exemplu, date audio și date termice de pe o stradă aglomerată a orașului, sau date de adâncime și o descriere textuală a unei stânci de pe malul mării.”

Meta crede că această tehnologie va depăși în cele din urmă cele șase „simțuri”, ca să spunem așa. „Deși am investigat șase modalități în studiul nostru actual, credem că introducerea de noi modalități care conectează cât mai multe simțuri posibil – cum ar fi atingerea, vorbirea, mirosul și semnalele cerebrale fMRI – va permite modele AI mai bogate centrate pe om”. Dezvoltatorii interesați să exploreze acest nou sandbox pot începe prin a se scufunda în codul open source al Meta.

Citeste si:

DzhereloEngadget

Inscrie-te

0 Comentarii

Recenzii încorporate

Vezi toate comentariile

Alte articole

AI ImageBind de la Meta poate imita percepția umană

Comentarii recente