Meta presenterte en ny kraftig AI-modell Llama 2 Long

Meta Platforms på det årlige Meta Connect-arrangementet i California presentert flere nye AI-funksjoner for sine populære apper Facebook, Instagram og WhatsApp, men den mest imponerende innovasjonen fra teknologigiganten kan ha gått ubemerket hen av mange. Vi snakker om Llama 2 Long AI-modellen.

Et team av forskere fra Meta-selskapet publiserte på en eller annen måte stille en artikkel der de presenterte en ny kunstig intelligensmodell, Llama 2 Long, som er i stand til å generere sammenhengende og relevante svar på lange brukerspørsmål. På det meste, sier de, utkonkurrerer den noen av de beste konkurrentene i bransjen.

Llama 2 Long er en utvidelse Lama 2, en åpen kildekode AI-modell Meta utgitt over sommeren som kan lære fra en rekke datakilder og utføre en rekke oppgaver som koding, matematikk, språkforståelse og mer. Imidlertid ble Llama 2 Long trent på mer data som inneholder lengre tekster, og denne algoritmen ble modifisert for å håndtere lengre sekvenser med informasjon. Dette gjør at den kan utkonkurrere OpenAIs GPT-3.5 Turbo og Claude 2, som har begrensninger på mengden kontekst de kan bruke for å generere svar.

Forskere Meta brukt forskjellige versjoner av Llama 2 - fra 7 milliarder til 70 milliarder parametere, det vil si verdier som AI-modellen kan endre ved å lære av dataene. De la til ytterligere 400 milliarder tokens (tekstenheter) med data som inneholdt lengre tekster enn det originale modelldatasettet. De finjusterte også litt arkitekturen til AI-modellen ved å bruke Rotary Positional Embedding (RoPE)-teknikken slik at modellen kan generere nøyaktige og nyttige svar ved å bruke mindre informasjon og minne enn andre metoder.

Lama 2

Teamet brukte forsterkningslæring fra menneskelig tilbakemelding (RLHF), en metode der AI-modellen belønnes for riktige svar og korrigeres av menneskelige vurderinger, og syntetiske data genereres av selve Llama 2-chatten. for å forbedre ytelsen i ulike oppgaver .

Avisen hevder at modellen kan generere høykvalitetssvar på brukerforespørsler på opptil 200 40 tegn, tilsvarende omtrent 2 sider med tekst. Forskerne sier Llama XNUMX Long er et skritt mot å skape mer generelle og allsidige AI-modeller som kan møte de komplekse og mangfoldige behovene til brukere. De anerkjenner også de potensielle etiske og sosiale implikasjonene av slike modeller og etterlyser ytterligere forskning og dialog om hvordan man kan bruke dem på en ansvarlig og fordelaktig måte.

Les også:

Dzherelointeressant ingeniørfag

Melde deg på

0 Kommentar

Innebygde anmeldelser

Se alle kommentarer

Andre artikler

Meta introduserte Llama 2 Long AI-modellen, som fungerer bedre med lange søk

Nylige kommentarer