Oamenii de știință de la MIT au rezolvat misterul învățării automate

După 2010, a început o îmbunătățire serioasă a algoritmilor software, iar aceasta, împreună cu calculatoare puternice, a dat impuls dezvoltării rapide a rețelelor neuronale. Modelele software sunt instruite și instruite pe mii de exemple pentru a-și forma propriile acțiuni mai târziu. Astăzi, cea mai cunoscută rețea neuronală este aceasta OpenAI GPT-3. Acesta este un model de învățare automată care învață cu ajutorul multor date de pe Internet, poate lua un mic fragment de text și poate adăuga un fragment insuficient la un nivel destul de ridicat. Și acest lucru se aplică nu numai textului narativ, ci și poeziei, precum și liniilor de cod software.

Dar nu de asta sunt capabile modelele acestui plan. Cercetătorii studiază un fenomen interesant cunoscut sub numele de „învățare în context”, în care un model de limbă mare învață să îndeplinească o sarcină după ce a văzut doar câteva exemple, chiar dacă nu a fost instruit în această sarcină.

Oamenii de știință de la Institutul de Tehnologie din Massachusetts, Google Research și Universitatea Stanford încearcă să rezolve acest mister. Cu învățarea contextuală, parametrii modelului nu sunt actualizați, așa că se pare că modelul învață o sarcină nouă fără să învețe absolut nimic.

Rezultatele teoretice ale cercetătorilor arată că aceste modele masive de rețele neuronale sunt capabile să conțină modele liniare mai mici și mai simple ascunse în interiorul lor. Modelul mare poate implementa apoi un algoritm simplu pentru a antrena acest model liniar mai mic pentru a efectua o nouă sarcină, folosind doar informațiile deja conținute în modelul mai mare.

Datorită unei înțelegeri mai profunde a învățării contextuale, oamenii de știință vor putea implementa noi sarcini cu modele fără o recalificare costisitoare. Adică, în primul rând, pentru orice sarcină specifică, este necesar să se colecteze o gamă largă de date pe baza cărora va avea loc instruirea. Și astfel va fi posibil să oferim rețelei neuronale doar câteva exemple, datorită cărora va avea loc antrenament.

„Învățarea contextuală este un fenomen de învățare nerezonabil de eficient care trebuie înțeles”.

S-a emis ipoteza că există modele de învățare automată mai mici în modelele de rețele neuronale care pot învăța un model mai vechi să îndeplinească o sarcină nouă. Pentru a-și testa teoria, oamenii de știință au luat un model de rețea neuronală care este foarte asemănător ca arhitectură cu GPT-3, dar a fost construit special pentru învățarea în context. Adică, în interiorul straturilor anterioare, a fost implementat un model, care a fost angajat în învățarea unui model liniar, implementând algoritmi simpli de învățare.

„Aceste rezultate sunt o piatră de temelie pentru înțelegerea modului în care modelele pot învăța sarcini mai complexe și îi vor ajuta pe cercetători să dezvolte metode mai eficiente de formare a modelelor lingvistice pentru a-și îmbunătăți performanța.”.

Citeste si:

Dzherelocsail.mit.edu

Inscrie-te

0 Comentarii

Recenzii încorporate

Vezi toate comentariile

Alte articole

Oamenii de știință de la Institutul de Tehnologie din Massachusetts au rezolvat misterul învățării automate

Comentarii recente