MIT:n tutkijat ratkaisivat koneoppimisen mysteerin

Vuoden 2010 jälkeen ohjelmistoalgoritmien vakava parantaminen alkoi, ja tämä yhdessä tehokkaiden tietokoneiden kanssa antoi sysäyksen hermoverkkojen nopealle kehitykselle. Ohjelmistomalleja koulutetaan ja koulutetaan tuhansien esimerkkien perusteella, jotta ne muodostavat myöhemmin omat toimintansa. Nykyään tunnetuin neuroverkko on tämä OpenAI GPT-3. Tämä on koneoppimismalli, joka oppii suuren Internet-datan avulla, voi ottaa pienen fragmentin tekstiä ja lisätä riittämättömän fragmentin melko korkealla tasolla. Ja tämä ei koske vain kerrottavaa tekstiä, vaan myös runoja sekä ohjelmistokoodirivejä.

Mutta tämä ei ole kaikki, mihin tämän suunnitelman mallit pystyvät. Tutkijat tutkivat mielenkiintoista ilmiötä, joka tunnetaan nimellä "oppiminen kontekstissa", jossa suuri kielimalli oppii suorittamaan tehtävän nähtyään vain muutaman esimerkin, vaikka sitä ei ole koulutettu tehtävään.

Massachusetts Institute of Technologyn, Google Researchin ja Stanfordin yliopiston tutkijat yrittävät ratkaista tätä mysteeriä. Kontekstioppimisessa malliparametreja ei päivitetä, joten näyttää siltä, että malli oppii uutta tehtävää oppimatta yhtään mitään.

Tutkijoiden teoreettiset tulokset osoittavat, että nämä massiiviset neuroverkkomallit pystyvät pitämään sisällään pienempiä ja yksinkertaisempia lineaarisia malleja piilossa. Suuri malli voi sitten toteuttaa yksinkertaisen algoritmin tämän pienemmän lineaarisen mallin kouluttamiseksi suorittamaan uusi tehtävä käyttämällä vain suurempaan malliin jo sisältyviä tietoja.

Syvemmän kontekstuaalisen oppimisen ymmärtämisen ansiosta tutkijat voivat toteuttaa uusia tehtäviä malleilla ilman kallista uudelleenkoulutusta. Eli ensinnäkin mitä tahansa tiettyä tehtävää varten on tarpeen kerätä suuri joukko tietoja, joiden perusteella koulutus tapahtuu. Ja niin hermoverkkoon on mahdollista tarjota vain muutama esimerkki, jonka ansiosta koulutusta tapahtuu.

"Kontekstuaalinen oppiminen on kohtuuttoman tehokas oppimisilmiö, joka on ymmärrettävä".

On oletettu, että hermoverkkomalleissa on pienempiä koneoppimismalleja, jotka voivat opettaa vanhemman mallin suorittamaan uutta tehtävää. Testatakseen teoriaansa tutkijat ottivat hermoverkkomallin, joka on arkkitehtuuriltaan hyvin samanlainen kuin GPT-3, mutta joka rakennettiin erityisesti kontekstissa oppimista varten. Eli aikaisempien kerrosten sisällä toteutettiin malli, joka harjoitti lineaarisen mallin oppimista toteuttaen yksinkertaisia oppimisalgoritmeja.

"Nämä tulokset ovat ponnahduslauta ymmärtämään, kuinka mallit voivat oppia monimutkaisempia tehtäviä, ja auttavat tutkijoita kehittämään tehokkaampia menetelmiä kielimallien harjoittamiseen suorituskyvyn parantamiseksi.".

Lue myös:

Dzherelocsail.mit.edu

tunnisteet
Uutiset
Tekoäly

Kirjaudu

0 Kommentit

Upotetut arvostelut

Näytä kaikki kommentit

Muut artikkelit

Massachusetts Institute of Technologyn tutkijat ovat ratkaisseet koneoppimisen mysteerin

Viimeaikaiset kommentit