Meta presenterade en ny kraftfull AI-modell Llama 2 Long

Meta Platforms på det årliga Meta Connect-evenemanget i Kalifornien представила flera nya AI-funktioner för sina populära applikationer Facebook, Instagram och WhatsApp, men den mest imponerande innovationen från teknikjätten kan ha gått obemärkt förbi av många. Vi pratar om modellen Llama 2 Long AI.

Ett team av forskare från Meta-företaget publicerade på något sätt tyst en artikel där de presenterade en ny artificiell intelligensmodell, Llama 2 Long, som kan generera sammanhängande och relevanta svar på långa användarfrågor. Som mest, säger de, överträffar den några av de bästa konkurrenterna i branschen.

Lama 2 lång

Llama 2 Long är en förlängning Lama 2, en open-source AI-modell Meta som släpptes under sommaren som kan lära sig av en mängd olika datakällor och utföra en mängd olika uppgifter som kodning, matematik, språkförståelse och mer. Men Llama 2 Long tränades på mer data som innehöll längre texter, och denna algoritm modifierades för att hantera längre informationssekvenser. Detta gör att den kan överträffa OpenAI:s GPT-3.5 Turbo och Claude 2, som har gränser för hur mycket sammanhang de kan använda för att generera svar.

Forskare meta använde olika versioner av Llama 2 - från 7 miljarder till 70 miljarder parametrar, det vill säga värden som AI-modellen kan ändra genom att lära sig av data. De lade till ytterligare 400 miljarder tokens (textenheter) av data som innehöll längre texter än den ursprungliga modellens datauppsättning. De finjusterade också AI-modellens arkitektur något med hjälp av tekniken Rotary Positional Embedding (RoPE) så att modellen kan generera korrekta och användbara svar med mindre information och minne än andra metoder.

Lama 2

Teamet använde förstärkningsinlärning från mänsklig feedback (RLHF), en metod där AI-modellen belönas för korrekta svar och korrigeras av mänskliga bedömare, och syntetisk data genereras av själva Llama 2-chatten. för att förbättra dess prestanda i olika uppgifter .

Tidningen hävdar att modellen kan generera högkvalitativa svar på användaruppmaningar som är upp till 200 40 tecken långa, vilket motsvarar cirka 2 sidor text. Forskarna säger att Llama XNUMX Long är ett steg mot att skapa mer allmänna och mångsidiga AI-modeller som kan möta användarnas komplexa och mångsidiga behov. De erkänner också de potentiella etiska och sociala konsekvenserna av sådana modeller och efterlyser ytterligare forskning och dialog om hur man använder dem på ett ansvarsfullt och fördelaktigt sätt.

Läs också:

Dzherelointressant ingenjörskonst

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Meta introducerade Llama 2 Long AI-modellen, som fungerar bättre med långa frågor

Senaste kommentarerna