Root NationUutisetIT-uutisiaMicrosoft esitteli multimodaalisen lähestymistavan, joka tasoitti tietä ihmistason tekoälylle

Microsoft esitteli multimodaalisen lähestymistavan, joka tasoitti tietä ihmistason tekoälylle

-

Tämän viikon alussa tutkijat alkaen Microsoft esitteli Kosmos-1:n, multimodaalisen tekoälymallin, joka osaa analysoida kuvien sisältöä, ratkaista visuaalisia pulmia, suorittaa visuaalista tekstintunnistusta, suorittaa visuaalisia älykkyystestejä ja ymmärtää luonnollisen kielen ohjeita. Tutkijoiden mukaan tällaiset tekoälymallit ovat ensimmäinen askel kohti yleistä tekoälyä (AI), joka pystyy suorittamaan yhteisiä ihmistason tehtäviä. Eli tämä tekniikka pystyy korvaamaan henkilön missä tahansa älyllisessä tehtävässä. Ja tämä on OpenAI:n, keskeisen liikekumppanin, ilmoittama tavoite Microsoft tekoälyn alalla.

Kosmos-1

Tässä tapauksessa Kosmos-1 on yrityksen puhtaasti henkilökohtainen kehitys Microsoft. Tutkijat kutsuvat luomaansa "multimodaaliksi laajakieliseksi malliksi" (MLLM), koska sen juuret ovat vain tekstin luonnollisessa kielenkäsittelyssä, kuten LLM, kuten ChatGPT. Jotta malli voi hyväksyä syötekuvat, tutkijoiden on ensin muutettava kuvat erityiseksi merkkisarjaksi (pääasiassa tekstiksi), joita LLM ymmärtää.

Kosmos-1

Kosmos-1 koulutettiin Internetin tietokantaan, joka sisälsi otteita The Pilestä (800 Gt:n englanninkielinen tekstiresurssi) ja Common Crawlista. Mallia testattiin sitten useilla testeillä puheen ymmärtämiseksi, puheen generoimiseksi, tekstin luokittelulle ilman optista merkintunnistusta, kuvien tekstityksillä, visuaalisilla kysymyksiin vastaamisella, verkkosivujen kysymyksiin vastaamisella ja kuvan luokittelulla lokalisoinnilla. Mukaan MicrosoftKosmos-1 ylitti nykyiset mallit monissa näistä testeistä.

Kosmos-1

Erityisen mielenkiintoinen oli Raven's Progressive Reasoning -testi, joka mittaa visuaalista älykkyysosamäärää esittämällä muotosarjan ja pyytämällä tutkittavaa suorittamaan sarjan loppuun. Kosmos-1 pystyi antamaan oikean vastauksen 22 %:ssa tapauksista.

Kosmos-1

Nämä varhaiset vaiheet, jotka tulevan optimoinnin myötä voivat tuottaa vieläkin merkittävämpiä tuloksia, jolloin tekoälymallit voivat havaita ja vaikuttaa kaikenlaiseen mediaan, mikä laajentaa huomattavasti keinotekoisten avustajien ominaisuuksia.

Lue myös:

DzhereloArsTechnica
Kirjaudu
Ilmoita asiasta
vieras

0 Kommentit
Upotetut arvostelut
Näytä kaikki kommentit