Meta pristatė naują galingą dirbtinio intelekto modelį Llama 2 Long

Meta platformos kasmetiniame Meta Connect renginyje Kalifornijoje pateiktas keletas naujų AI funkcijų, skirtų populiarioms programoms Facebook, Instagram ir „WhatsApp“, tačiau įspūdingiausios technologijų milžinės naujovės daugelis galėjo nepastebėti. Kalbame apie Llama 2 Long AI modelį.

Bendrovės „Meta“ mokslininkų komanda kažkodėl tyliai paskelbė straipsnį, kuriame pristatė naują dirbtinio intelekto modelį „Llama 2 Long“, galintį generuoti nuoseklius ir aktualius atsakymus į ilgas vartotojų užklausas. Jie sako, kad daugiausiai jis lenkia kai kuriuos geriausius konkurentus šioje srityje.

„Llama 2 Long“ yra pratęsimas Lama 2, vasarą išleistas atvirojo kodo AI modelis „Meta“, galintis mokytis iš įvairių duomenų šaltinių ir atlikti įvairias užduotis, tokias kaip kodavimas, matematika, kalbos supratimas ir kt. Tačiau „Llama 2 Long“ buvo išmokyta gauti daugiau duomenų, kuriuose yra ilgesnių tekstų, ir šis algoritmas buvo pakeistas, kad būtų galima apdoroti ilgesnes informacijos sekas. Tai leidžia jam pranokti OpenAI GPT-3.5 Turbo ir Claude 2, kurie turi ribotus konteksto kiekius, kuriuos jie gali naudoti atsakymams generuoti.

Tyrinėtojai meta naudojo skirtingas Llama 2 versijas – nuo 7 milijardų iki 70 milijardų parametrų, t.y. verčių, kurias AI modelis gali keisti mokydamasis iš duomenų. Jie pridėjo dar 400 milijardų žetonų (teksto vienetų) duomenų, kuriuose buvo ilgesni tekstai nei pradiniame modelio duomenų rinkinyje. Jie taip pat šiek tiek pakoregavo AI modelio architektūrą, naudodami Rotary Positional Embedding (RoPE) techniką, kad modelis galėtų generuoti tikslius ir naudingus atsakymus naudodamas mažiau informacijos ir atminties nei kiti metodai.

Lama 2

Komanda naudojo sustiprinimo mokymąsi iš žmogaus grįžtamojo ryšio (RLHF) – metodą, kai dirbtinio intelekto modelis yra apdovanotas už teisingus atsakymus ir taisomas žmonių vertintojų, o sintetinius duomenis generuoja pats „Llama 2“ pokalbis, kad pagerintų jo našumą atliekant įvairias užduotis. .

Straipsnyje teigiama, kad modelis gali sukurti aukštos kokybės atsakymus į vartotojo raginimus iki 200 40 simbolių ilgio, o tai atitinka maždaug 2 puslapių teksto. Tyrėjai teigia, kad „Llama XNUMX Long“ yra žingsnis kuriant bendresnius ir universalesnius AI modelius, kurie gali patenkinti sudėtingus ir įvairius vartotojų poreikius. Jie taip pat pripažįsta galimas tokių modelių etines ir socialines pasekmes ir ragina atlikti tolesnius tyrimus bei dialogą, kaip juos atsakingai ir naudingai panaudoti.

Taip pat skaitykite:

Jerelasįdomi inžinerija

Registruotis

0 komentarai

Įterptieji atsiliepimai

Žiūrėti visus komentarus

Kiti straipsniai

Meta pristatė Llama 2 Long AI modelį, kuris geriau veikia su ilgomis užklausomis

Naujausi Komentarai