Meta a prezentat un nou model puternic AI Llama 2 Long

Platforme Meta la evenimentul anual Meta Connect din California prezentat câteva funcții AI noi pentru aplicațiile sale populare Facebook, Instagram și WhatsApp, dar cea mai impresionantă inovație a gigantului tehnologic poate să fi trecut neobservată de mulți. Vorbim despre modelul Llama 2 Long AI.

O echipă de cercetători de la compania Meta a publicat cumva în liniște un articol în care prezentau un nou model de inteligență artificială, Llama 2 Long, capabil să genereze răspunsuri coerente și relevante la întrebările lungi ale utilizatorilor. Cel mult, spun ei, îi depășește pe unii dintre cei mai buni concurenți din industrie.

Llama 2 Long este o extensie Lama 2, un model AI open-source Meta lansat în timpul verii, care poate învăța dintr-o varietate de surse de date și poate îndeplini o varietate de sarcini precum codificare, matematică, înțelegere a limbii și multe altele. Cu toate acestea, Llama 2 Long a fost antrenat pe mai multe date care conțin texte mai lungi, iar acest algoritm a fost modificat pentru a gestiona secvențe mai lungi de informații. Acest lucru îi permite să depășească GPT-3.5 Turbo și Claude 2 de la OpenAI, care au limite în ceea ce privește cantitatea de context pe care o pot folosi pentru a genera răspunsuri.

Cercetători meta au folosit diferite versiuni ale Llama 2 - de la 7 la 70 de miliarde de parametri, adică valori pe care modelul AI le poate schimba prin învățarea din date. Au adăugat alte 400 de miliarde de jetoane (unități de text) de date care conțineau texte mai lungi decât setul de date model original. De asemenea, au modificat ușor arhitectura modelului AI utilizând tehnica Rotary Positional Embedding (RoPE), astfel încât modelul să poată genera răspunsuri precise și utile folosind mai puține informații și memorie decât alte metode.

Lama 2

Echipa a folosit învățare prin întărire din feedbackul uman (RLHF), o metodă în care modelul AI este recompensat pentru răspunsurile corecte și corectat de evaluatorii umani, iar datele sintetice sunt generate de chat-ul Llama 2 în sine pentru a-și îmbunătăți performanța în diverse sarcini. .

Lucrarea susține că modelul poate genera răspunsuri de înaltă calitate la solicitările utilizatorului cu o lungime de până la 200 de caractere, echivalentul a aproximativ 40 de pagini de text. Cercetătorii spun că Llama 2 Long este un pas către crearea de modele AI mai generale și versatile care pot satisface nevoile complexe și diverse ale utilizatorilor. Ei recunosc, de asemenea, potențialele implicații etice și sociale ale unor astfel de modele și solicită cercetări suplimentare și dialog cu privire la modul de utilizare a acestora în mod responsabil și benefic.

Citeste si:

Dzhereloinginerie interesantă

Inscrie-te

0 Comentarii

Recenzii încorporate

Vezi toate comentariile

Alte articole

Meta a introdus modelul Llama 2 Long AI, care funcționează mai bine cu interogări lungi

Comentarii recente