Nagpakita ang Meta ng bagong makapangyarihang modelo ng AI na Llama 2 Long

Mga Meta Platform sa taunang kaganapan ng Meta Connect sa California ipinakita ilang bagong feature ng AI para sa mga sikat na application nito Facebook, Instagram at WhatsApp, ngunit ang pinakakahanga-hangang pagbabago mula sa tech giant ay maaaring hindi napansin ng marami. Pinag-uusapan natin ang modelo ng Llama 2 Long AI.

Ang isang pangkat ng mga mananaliksik mula sa kumpanya ng Meta ay tahimik na nag-publish ng isang artikulo kung saan ipinakita nila ang isang bagong modelo ng artificial intelligence, ang Llama 2 Long, na may kakayahang bumuo ng magkakaugnay at nauugnay na mga sagot sa mahabang query ng user. Sa karamihan, sabi nila, nahihigitan nito ang ilan sa mga pinakamahusay na kakumpitensya sa industriya.

Ang Llama 2 Long ay isang extension apoy 2, isang open-source na AI model na Meta na inilabas noong tag-araw na maaaring matuto mula sa iba't ibang pinagmumulan ng data at magsagawa ng iba't ibang gawain tulad ng coding, matematika, pag-unawa sa wika, at higit pa. Gayunpaman, ang Llama 2 Long ay sinanay sa mas maraming data na naglalaman ng mas mahahabang teksto, at ang algorithm na ito ay binago upang pangasiwaan ang mas mahahabang sequence ng impormasyon. Binibigyang-daan nito na malampasan ang pagganap ng OpenAI's GPT-3.5 Turbo at Claude 2, na may mga limitasyon sa dami ng kontekstong magagamit nila upang makabuo ng mga tugon.

Mga mananaliksik meta gumamit ng iba't ibang bersyon ng Llama 2 - mula 7 bilyon hanggang 70 bilyong mga parameter, i.e. mga halaga na maaaring baguhin ng modelo ng AI sa pamamagitan ng pag-aaral mula sa data. Nagdagdag sila ng isa pang 400 bilyong token (mga unit ng text) ng data na naglalaman ng mas mahahabang text kaysa sa orihinal na dataset ng modelo. Bahagyang binago din nila ang arkitektura ng modelo ng AI gamit ang pamamaraan ng Rotary Positional Embedding (RoPE) upang ang modelo ay makabuo ng tumpak at kapaki-pakinabang na mga sagot gamit ang mas kaunting impormasyon at memorya kaysa sa iba pang mga pamamaraan.

apoy 2

Gumamit ang team ng reinforcement learning mula sa human feedback (RLHF), isang paraan kung saan ang modelo ng AI ay ginagantimpalaan para sa mga tamang sagot at itinatama ng mga human rater, at ang synthetic na data ay nabuo ng Llama 2 chat mismo. upang mapabuti ang pagganap nito sa iba't ibang gawain .

Sinasabi ng papel na ang modelo ay maaaring makabuo ng mataas na kalidad na mga tugon sa mga senyas ng user hanggang sa 200 character ang haba, katumbas ng humigit-kumulang 40 na pahina ng teksto. Sinabi ng mga mananaliksik na ang Llama 2 Long ay isang hakbang patungo sa paglikha ng mas pangkalahatan at maraming nalalaman na mga modelo ng AI na maaaring matugunan ang masalimuot at magkakaibang pangangailangan ng mga user. Kinikilala din nila ang mga potensyal na etikal at panlipunang implikasyon ng naturang mga modelo at nanawagan para sa karagdagang pananaliksik at pag-uusap kung paano gamitin ang mga ito nang responsable at kapaki-pakinabang.

Basahin din:

Jerelokawili-wiling engineering

Mag-sign up

0 Comments

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Iba pang mga artikulo

Ipinakilala ng Meta ang modelong Llama 2 Long AI, na mas gumagana sa mahabang query

Mga kamakailang komento