Meta prezentēja jaunu jaudīgu AI modeli Llama 2 Long

Meta platformas ikgadējā Meta Connect pasākumā Kalifornijā uzrādīts vairākas jaunas AI funkcijas tās populārajām lietotnēm Facebook, Instagram un WhatsApp, taču visiespaidīgākais tehnoloģiju giganta jauninājums, iespējams, daudziem nav pamanīts. Mēs runājam par Llama 2 Long AI modeli.

Uzņēmuma Meta pētnieku komanda kaut kā klusi publicēja rakstu, kurā viņi iepazīstināja ar jaunu mākslīgā intelekta modeli Llama 2 Long, kas spēj radīt saskaņotas un atbilstošas atbildes uz ilgiem lietotāju jautājumiem. Viņi saka, ka tas pārspēj dažus no labākajiem konkurentiem šajā nozarē.

Lama 2 Long

Llama 2 Long ir paplašinājums Lama 2, vasarā izlaists atvērtā pirmkoda AI modelis Meta, kas var mācīties no dažādiem datu avotiem un veikt dažādus uzdevumus, piemēram, kodēšanu, matemātiku, valodas izpratni un citus. Tomēr Llama 2 Long tika apmācīts vairāk datu, kas satur garākus tekstus, un šis algoritms tika pārveidots, lai apstrādātu garākas informācijas secības. Tas ļauj tai pārspēt OpenAI GPT-3.5 Turbo un Claude 2, kuriem ir ierobežots konteksta apjoms, ko tie var izmantot atbilžu ģenerēšanai.

Pētnieki meta izmantoja dažādas Llama 2 versijas - no 7 miljardiem līdz 70 miljardiem parametru, t.i., vērtības, kuras AI modelis var mainīt, mācoties no datiem. Viņi pievienoja vēl 400 miljardus marķieru (teksta vienību) datu, kas saturēja garākus tekstus nekā sākotnējā modeļa datu kopā. Viņi arī nedaudz uzlaboja AI modeļa arhitektūru, izmantojot Rotary Positional Embedding (RoPE) tehniku, lai modelis varētu ģenerēt precīzas un noderīgas atbildes, izmantojot mazāk informācijas un atmiņas nekā citas metodes.

Lama 2

Komanda izmantoja pastiprināšanas mācīšanos no cilvēka atgriezeniskās saites (RLHF) — metodi, kurā AI modelis tiek atalgots par pareizām atbildēm un cilvēku vērtētāji to izlabo, un sintētiskos datus ģenerē pati Llama 2 tērzēšana, lai uzlabotu tā veiktspēju dažādos uzdevumos. .

Rakstā tiek apgalvots, ka modelis var radīt augstas kvalitātes atbildes uz lietotāja uzvednēm līdz 200 40 rakstzīmēm, kas atbilst aptuveni 2 teksta lappusēm. Pētnieki saka, ka Llama XNUMX Long ir solis ceļā uz vispārīgāku un daudzpusīgāku AI modeļu izveidi, kas var apmierināt sarežģītās un daudzveidīgās lietotāju vajadzības. Viņi arī atzīst šādu modeļu iespējamās ētiskās un sociālās sekas un aicina veikt turpmāku izpēti un dialogu par to, kā tos izmantot atbildīgi un izdevīgi.

Lasi arī:

Jerelointeresanta inženierija

Pierakstīties

0 komentāri

Iegultās atsauksmes

Skatīt visus komentārus

Citi raksti

Meta iepazīstināja ar Llama 2 Long AI modeli, kas labāk darbojas gariem vaicājumiem

Jaunākie komentāri