Root NationUutisetIT-uutisiaMassachusetts Institute of Technologyn tutkijat ovat ratkaisseet koneoppimisen mysteerin

Massachusetts Institute of Technologyn tutkijat ovat ratkaisseet koneoppimisen mysteerin

-

Vuoden 2010 jälkeen ohjelmistoalgoritmien vakava parantaminen alkoi, ja tämä yhdessä tehokkaiden tietokoneiden kanssa antoi sysäyksen hermoverkkojen nopealle kehitykselle. Ohjelmistomalleja koulutetaan ja koulutetaan tuhansien esimerkkien perusteella, jotta ne muodostavat myöhemmin omat toimintansa. Nykyään tunnetuin neuroverkko on tämä OpenAI GPT-3. Tämä on koneoppimismalli, joka oppii suuren Internet-datan avulla, voi ottaa pienen fragmentin tekstiä ja lisätä riittämättömän fragmentin melko korkealla tasolla. Ja tämä ei koske vain kerrottavaa tekstiä, vaan myös runoja sekä ohjelmistokoodirivejä.

Neuraaliverkko

Mutta tämä ei ole kaikki, mihin tämän suunnitelman mallit pystyvät. Tutkijat tutkivat mielenkiintoista ilmiötä, joka tunnetaan nimellä "oppiminen kontekstissa", jossa suuri kielimalli oppii suorittamaan tehtävän nähtyään vain muutaman esimerkin, vaikka sitä ei ole koulutettu tehtävään.

Massachusetts Institute of Technologyn, Google Researchin ja Stanfordin yliopiston tutkijat yrittävät ratkaista tätä mysteeriä. Kontekstioppimisessa malliparametreja ei päivitetä, joten näyttää siltä, ​​että malli oppii uutta tehtävää oppimatta yhtään mitään.

Neuraaliverkko

Tutkijoiden teoreettiset tulokset osoittavat, että nämä massiiviset neuroverkkomallit pystyvät pitämään sisällään pienempiä ja yksinkertaisempia lineaarisia malleja piilossa. Suuri malli voi sitten toteuttaa yksinkertaisen algoritmin tämän pienemmän lineaarisen mallin kouluttamiseksi suorittamaan uusi tehtävä käyttämällä vain suurempaan malliin jo sisältyviä tietoja.

Syvemmän kontekstuaalisen oppimisen ymmärtämisen ansiosta tutkijat voivat toteuttaa uusia tehtäviä malleilla ilman kallista uudelleenkoulutusta. Eli ensinnäkin mitä tahansa tiettyä tehtävää varten on tarpeen kerätä suuri joukko tietoja, joiden perusteella koulutus tapahtuu. Ja niin hermoverkkoon on mahdollista tarjota vain muutama esimerkki, jonka ansiosta koulutusta tapahtuu.

"Kontekstuaalinen oppiminen on kohtuuttoman tehokas oppimisilmiö, joka on ymmärrettävä".

Neuraaliverkko

On oletettu, että hermoverkkomalleissa on pienempiä koneoppimismalleja, jotka voivat opettaa vanhemman mallin suorittamaan uutta tehtävää. Testatakseen teoriaansa tutkijat ottivat hermoverkkomallin, joka on arkkitehtuuriltaan hyvin samanlainen kuin GPT-3, mutta joka rakennettiin erityisesti kontekstissa oppimista varten. Eli aikaisempien kerrosten sisällä toteutettiin malli, joka harjoitti lineaarisen mallin oppimista toteuttaen yksinkertaisia ​​oppimisalgoritmeja.

"Nämä tulokset ovat ponnahduslauta ymmärtämään, kuinka mallit voivat oppia monimutkaisempia tehtäviä, ja auttavat tutkijoita kehittämään tehokkaampia menetelmiä kielimallien harjoittamiseen suorituskyvyn parantamiseksi.".

Lue myös:

Kirjaudu
Ilmoita asiasta
vieras

0 Kommentit
Upotetut arvostelut
Näytä kaikki kommentit