Root NationȘtiriștiri ITMicrosoft a prezentat o abordare multimodală deschizând calea către IA la nivel uman

Microsoft a prezentat o abordare multimodală deschizând calea către IA la nivel uman

-

La începutul acestei săptămâni, cercetătorii de la Microsoft a prezentat Kosmos-1, un model de inteligență artificială multimodală care poate analiza imagini pentru conținut, poate rezolva puzzle-uri vizuale, poate realiza recunoașterea vizuală a textului, poate face teste de IQ vizual și poate înțelege instrucțiunile în limbaj natural. Potrivit cercetătorilor, astfel de modele AI reprezintă primul pas către crearea unei inteligențe generale artificiale (AI) care poate îndeplini sarcini comune la nivel uman. Adică, această tehnologie va putea înlocui o persoană în orice sarcină intelectuală. Și acesta este obiectivul declarat al OpenAI, un partener de afaceri cheie Microsoft în domeniul inteligenței artificiale.

Cosmos-1

În acest caz, Kosmos-1 este o dezvoltare pur personală a companiei Microsoft. Cercetătorii numesc creația lor un „model de limbaj larg multimodal” (MLLM), deoarece rădăcinile sale se află în procesarea limbajului natural doar cu text, cum ar fi LLM, cum ar fi ChatGPT. Pentru ca modelul să accepte imagini de intrare, cercetătorii trebuie mai întâi să convertească imaginile într-o serie specială de jetoane (în principal text) pe care LLM le poate înțelege.

Cosmos-1

Kosmos-1 a fost instruit pe o bază de date de pe Internet, inclusiv extrase din The Pile (o resursă text în limba engleză de 800 GB) și Common Crawl. Modelul a fost apoi testat cu mai multe teste pentru înțelegerea vorbirii, generarea vorbirii, clasificarea textului fără recunoaștere optică a caracterelor, subtitrărea imaginilor, răspunsul la întrebări vizuale, răspunsul la întrebările paginii web și clasificarea imaginilor cu localizare. Conform Microsoft, Kosmos-1 a depășit modelele actuale în multe dintre aceste teste.

Cosmos-1

Deosebit de interesant a fost testul Raven’s Progressive Reasoning, care măsoară IQ-ul vizual prezentând o secvență de forme și cerând subiectului să completeze secvența. Kosmos-1 a reușit să dea răspunsul corect în 22% din cazuri.

Cosmos-1

Acești pași timpurii, care odată cu optimizarea viitoare, ar putea aduce rezultate și mai semnificative, permițând modelelor AI să perceapă și să influențeze orice formă de media, extinzând foarte mult capacitățile asistenților artificiali.

Citeste si:

DzhereloArsTechnica
Inscrie-te
Notifică despre
oaspete

0 Comentarii
Recenzii încorporate
Vezi toate comentariile