Ano ang Gemini: Lahat tungkol sa bagong modelo ng AI mula sa Google

Kakalabas lang ng Google ng pinakamakapangyarihang modelong AI na tinawag na kailanman Gemini. Ano siya at ano ang magagawa niya? Tungkol sa lahat sa aming artikulo.

Ang Google ay gumagawa ng sarili nitong mga tool sa AI sa loob ng maraming taon. Sa pampublikong paglabas ng ChatGPT-3 mula sa OpenAI, ang kumpanyang nagpapatakbo ng pinakasikat na search engine sa mundo ay lumikha din ng katulad na tool, Bard. Ngunit ang tool na ito ay natalo pa rin sa mga kakumpitensya, na hindi pinapayagan ng Google. Samakatuwid, hindi nakakagulat na kamakailan lamang ay nakita ng mundo ang Gemini, isang bagong modelo ng wika mula sa Google, na natutunan namin sa panahon ng pagtatanghal.

Ito ay dinisenyo hindi lamang upang mapabuti ang nakaraang LLM (Malaking Modelo ng Wika) ng higante, ngunit din upang mag-alok ng ganap na bagong mga posibilidad sa larangan ng pagpoproseso ng teksto, graphics at tunog.

Kaya't tingnan natin ang bagong modelo ng wika ng Google Gemini.

Kawili-wili din: OpenAI Project Q*: ano ito at bakit ang proyekto ay isang alalahanin

NILALAMAN

1. Ano ang Google Gemini?

2. Sino ang gumawa ng modelo?

3. Mga pagkakataon

4. Mayroon bang iba't ibang mga bersyon?

5. Paano ma-access ang Gemini?

6. Gemini sa Google Bard: Ano ang magbabago?

7. Gemini sa mga Google Pixel smartphone

8. Paano naiiba ang Gemini sa iba pang mga modelo ng AI, tulad ng GPT-4?

9. Mga alalahanin tungkol sa katumpakan at walang kinikilingan

10. Ang hinaharap ay kay Gemini

Ano ang Google Gemini?

Ito ay isang bago at mahusay na modelo ng artificial intelligence mula sa Google, na nakakaunawa hindi lamang sa teksto, kundi pati na rin sa mga larawan, video at audio. Ang multimodal na modelong ito ay inilarawan bilang nakakagawa ng mga kumplikadong gawain sa matematika, pisika, at iba pang mga domain, pati na rin ang pag-unawa at pagbuo ng mataas na kalidad na code sa iba't ibang mga programming language.

Kasalukuyang available ang Gemini sa pamamagitan ng pagsasama sa Google Bard at Google Pixel 8 at unti-unting isasama sa iba pang mga serbisyo ng Google.

"Ang Gemini ay resulta ng napakalaking collaborative na pagsisikap sa mga Google team, kasama ang aming mga kasamahan sa Google Research," — sabi ni Dennis Hassabis, CEO at co-founder ng Google DeepMind. "Ito ay binuo mula sa simula upang maging multimodal, ibig sabihin, maaari itong gawing pangkalahatan at walang putol na maunawaan, gumana, at pagsamahin ang iba't ibang uri ng impormasyon, kabilang ang text, code, audio, mga larawan, at video."

- Advertisement -

Kawili-wili din: Hindi lahat ng tinatawag nating AI ay talagang artificial intelligence. Narito ang kailangan mong malaman

Sino ang gumawa ng modelo?

Tulad ng malamang na nahulaan mo na, ang Gemini ay nilikha ng Google at Alphabet, ang pangunahing kumpanya ng Google, at ito ang pinaka-advanced na modelo ng AI ng kumpanya hanggang sa kasalukuyan. Ang DeepMind division ng Google ay gumawa din ng malaking kontribusyon sa pag-unlad nito. Hindi pa alam kung gaano karaming mga empleyado ang lumahok sa pagpapaunlad at kung anong mga pondo ang inilaan para dito, ngunit alam natin ang mga kakayahan ng Google, makatitiyak tayo na mayroong napakalaking halaga.

Kawili-wili din: Windows 12: Ano ang magiging bagong OS

Mga pagkakataon

Tulad ng nabanggit ko sa itaas, ito ay isang multimodal na modelo, ibig sabihin ay maaari itong maunawaan, gumana, at pagsamahin ang iba't ibang uri ng data, kabilang ang text, code, audio, mga larawan, at video. Nagbibigay ito ng mas mahusay na pag-unawa, pag-iisip at mga kasanayan sa coding kumpara sa mga nakaraang AI system.

Ang mga pangunahing kakayahan ng modelo ay:

Natural na pagpoproseso ng wika para sa mga gawain tulad ng pagsasalin, pagbubuod at diyalogo
Pag-iisip sa matematika at paglutas ng problema
Kakayahang bumuo ng code at dokumentasyon
Pag-unawa sa mga larawan, audio at video
Multitasking sa iba't ibang domain

Tulad ng nakikita mo, ang mga kakayahan ay higit na mataas sa iba pang mga modelo.

Sa mga pagsubok sa pag-unawa sa wika, pag-iisip sa matematika at coding, nalampasan ng Gemini Ultra ang mga modelo tulad ng GPT-4. Sa partikular, ito ang unang modelo na nalampasan ang pagganap sa antas ng tao sa pagsubok na Massive Multitask Language Understanding (MMLU), na nakakamit ng higit sa 90% na katumpakan.

Sa 32 akademikong pagsusulit ng isang malaking pag-aaral ng modelo ng wika, nalampasan ni Gemini ang GPT-4. Sa 30 kaso, ang bagong modelo ng wika mula sa Google ay mas mahusay kaysa sa katunggali. Ito ay nagpapakita ng kakayahan ng modelo na lubos na maunawaan ang wika.

Basahin din: Human Brain Project: Isang pagtatangka na gayahin ang utak ng tao

Mayroon bang iba't ibang mga bersyon?

Inilalarawan ng Google ang AI na ito bilang isang flexible na modelo na maaaring gumana sa anumang device: mula sa mga data center ng Google hanggang sa mga mobile device. Upang makamit ang scalability na ito, ang Gemini ay may tatlong bersyon: Nano, Pro at Ultra.

Pag-usapan natin ang iba't ibang bersyon ng Gemini nang mas detalyado.

Gemini Dwarf: idinisenyo upang gumana sa mga smartphone, lalo na ang Google Pixel 8. Ito ay idinisenyo upang magsagawa ng mga gawain na nangangailangan ng mahusay na pagproseso sa pamamagitan ng artificial intelligence nang hindi kumokonekta sa mga external na server, tulad ng pagmumungkahi ng mga sagot sa mga chat program o pagbubuod ng teksto. Ang modelo ng compact na device na ito ay may humigit-kumulang 6 na bilyong parameter.
Ang Gemini Pro: tumatakbo sa mga data center ng Google. Ang Pro ay idinisenyo upang gumana sa pinakabagong bersyon ng Bard AI chatbot. Nagagawa nitong magbigay ng mabilis na mga oras ng pagtugon at maunawaan ang mga kumplikadong query. Ang isang medium-sized na modelo ay may humigit-kumulang 100 bilyong mga parameter at ang core ng pakikipag-usap na AI ni Bard. Magiging available ang Pro sa pamamagitan ng Google Cloud.
Gemini Ultra: kahit na ang Ultra na bersyon ay hindi pa malawak na magagamit, inilalarawan ito ng Google bilang ang pinakamahusay na gumaganap na modelo nito, na lumalampas sa "kasalukuyang makabagong para sa 30 sa 32 malawakang ginagamit na mga pagsusulit na pang-akademiko na ginagamit sa malaking modelo ng wika (LLM) na pananaliksik. " Bilang pinakamalaki at pinakamakapangyarihang bersyon, makakatanggap ang Ultra ng higit sa 1 trilyong parameter. Ito ay matatagpuan sa mga sentro ng data. Ang Ultra ay inangkop para sa paggamit ng korporasyon. Ang bersyon ay idinisenyo upang magsagawa ng napaka-kumplikadong mga gawain. Plano ng Google na ilabas ito pagkatapos ng pagtatapos ng kasalukuyang yugto ng pagsubok. Iyon ay, ang pinakamalakas na bersyon ay hindi pa magagamit sa mga gumagamit.

Kawili-wili din: Google Bard AI: Lahat ng kailangan mong malaman

- Advertisement -

Paano ma-access ang Gemini?

Ang AI sa mga bersyon ng Nano at Pro ay available na ngayon sa mga produkto ng Google gaya ng mga Google Pixel 8 na smartphone at ang Bard chatbot, ayon sa pagkakabanggit. Plano ng Google na isama ito sa huli sa search engine nito, advertising, serbisyo sa email ng Gmail, Chrome browser at iba pang mga serbisyo.

Maa-access ng mga developer at customer ng enterprise ang Pro sa pamamagitan ng Gemini API sa Google AI Studio at Google Cloud Vertex AI simula Disyembre 13, 2023. Mga developer Android magkakaroon ng access sa modelo ng bersyon ng Nano sa pamamagitan ng AICore, na magiging available sa isang maagang preview.

Basahin din: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Labanan ng Dalawang Yokozuns

Gemini sa Google Bard: Ano ang magbabago?

Ayon sa impormasyong ibinigay sa panahon ng pagtatanghal, ang modelo ay magbibigay-daan sa Google Bard na mas mahusay na pangasiwaan ang mas kumplikadong mga problema, gaya ng nakasaad:

"Kami ay nagdisenyo ng Gemini upang ang modelo ay natural na multi-modal at pre-trained sa maraming mga modalidad mula sa simula. Pagkatapos ay pinino namin ito sa pamamagitan ng pagdaragdag ng higit pang multimodal na data upang mapabuti ang pagganap. Bilang resulta, ang Gemini ay madaling nauunawaan at mas mahusay kaysa sa mga nakaraang multimodal na modelo, at ipinagmamalaki ang mga makabagong kakayahan sa halos lahat ng mga lugar.

Ang pambihirang multimodal na kakayahan ng Gemini ay nakakatulong sa iyo na maunawaan ang kumplikadong textual at visual na impormasyon. Ang mga ito ay lalong kapaki-pakinabang pagdating sa pagkuha ng partikular na impormasyon mula sa malalaking set ng data. Ang pambihirang kakayahan ng modelong ito na kunin ang kakanyahan ng impormasyon mula sa daan-daang libong mga dokumento sa pamamagitan ng pagbabasa, pag-filter at pagsusuri sa mga ito ay walang alinlangan na mag-aambag sa mga bago, napakabilis na pagtuklas sa iba't ibang larangan mula sa agham hanggang sa pananalapi."

Sa panahon ng pagtatanghal, ipinakita ang isang halimbawa ng isang kumplikadong pag-aaral, na naglalaman ng higit sa 200 libong mga talaan, na ang ilan ay kailangang i-update ayon sa bagong data. Tulad ng maaaring nahulaan mo, ang paggawa nito nang manu-mano ay magiging napakatagal, kaya ginamit ng mga may-akda ng pag-aaral ang Gemini upang maghanda ng code na kumuha ng input at gumawa ng mga kinakailangang update. Ang isa pang mas totoong halimbawa ay ang paggamit ng modelo ng wika ng Google upang ipaliwanag ang mga problema sa matematika o pisika.

Ang input data dito ay isang larawan/scan ng isang takdang-aralin mula sa isang aralin sa paaralan. Naiproseso ng system ang mga graphics at text na nakaimbak doon at pagkatapos ay ipahiwatig kung aling mga bahagi ng takdang-aralin ang nagawa nang tama at kung alin ang nangangailangan ng higit na pansin. Ang pagtatanghal ay nagpakita na ang isang gumagamit ay maaaring paulit-ulit na hilingin sa Gemini na ipaliwanag ang isang gawain, at ang bawat kasunod na pagtatangka ay dapat ipaliwanag sa mas simpleng wika. Kung gaano katumpak at tama ang Gemini, siyempre, susuriin ng mga interesado, ngunit ang kakayahang magbasa at magproseso ng teksto nang direkta mula sa mga larawan ay kahanga-hanga. Tulad ng idinagdag sa panahon ng pagtatanghal:

"Tinuruan si Gemini na kilalanin at unawain ang teksto, mga larawan, mga tunog at higit pa sa parehong oras. Salamat dito, mas nauunawaan niya ang mga nuances ng impormasyon at maaaring sagutin ang mga kumplikadong tanong. Ito ay partikular na epektibo sa pagpapaliwanag ng mga paksang may kaugnayan sa matematika at pisika, kaya maaari itong magsilbi bilang isang personal na katulong sa takdang-aralin".

Gemini sa mga Google Pixel smartphone

Ipinagmamalaki din ng Google na "natututo" si Gemini sa mga bagong TPUv5 chipset, at planong ipakilala ang Gemini Ultra sa unang bahagi ng 2024, na gagamit ng Bard Advanced, isang bagong bersyon ng consumer version ng speech model ng higante. Kasalukuyang nasa pagsubok ang Gemini Ultra at available na ito sa mga piling eksperto sa seguridad.

Ang huling mahalagang piraso ng impormasyon ay ang pagpapakilala ng Gemini sa mga Google Pixel 8 na smartphone. Ito ay magbibigay-daan, bukod sa iba pang mga bagay, na gumawa ng mabilis na mga tugon sa pamamagitan ng Gboard application sa mga messenger. Ang una ay WhatsApp, ngunit sa susunod na taon ang mga naturang solusyon ay lilitaw sa iba pang mga application na may kaugnayan sa komunikasyon. Gayunpaman, simula pa lang ito, dahil inanunsyo ng Google ang maraming bagong AI tool para sa mga Pixel 8 na smartphone, at magiging available ang mga ito sa ilang iba pang device sa hinaharap. Android. Gayunpaman, ito ay mga karagdagang plano at walang mga detalyeng ibinigay sa ngayon.

Paano naiiba ang Gemini sa iba pang mga modelo ng AI, tulad ng GPT-4?

Ang bagong modelo ng Gemini ng Google ay mukhang isa sa pinakamalaki at pinaka-advanced na mga modelo ng AI hanggang sa kasalukuyan, bagaman tiyak na matutukoy iyon ng paglabas ng Ultra model. Kung ikukumpara sa iba pang sikat na modelo na kasalukuyang gumagamit ng AI chatbots, ang Gemini ay namumukod-tangi sa sarili nitong multimodal na feature, habang ang ibang mga modelo tulad ng GPT-4 ay umaasa sa mga plugin at integration upang maging tunay na multimodal.

Mga alalahanin tungkol sa katumpakan at walang kinikilingan

Bagama't ang Gemini ay isang malaking hakbang pasulong sa pagbuo ng mga kakayahan ng artipisyal na katalinuhan, mayroon itong parehong mga pagkukulang gaya ng iba pang mga pangunahing modelo ng wika. Una sa lahat, ito ang posibilidad ng paglikha ng maling impormasyon. Ang mga bias ay nakabatay din sa data ng pagsasanay na magagamit sa bagong modelo ng wika. Nararapat ding banggitin ang limitadong pag-unawa sa totoong mundo. Inamin ng Google na ang bagong modelo ng Gemini ay maaaring magkamali, magbigay ng mga katotohanang hindi batay sa ebidensya at sumasalungat sa sentido komun.

Higit pang mga pagsubok ang kailangan, lalo na para sa Gemini Ultra, na may mga bagong kakayahan na hindi pa ganap na na-explore. Nakatuon ang Google sa maingat na pagsusuri sa Gemini upang mabawasan ang potensyal na pinsala.

Kawili-wili din: Ang lahat ng tungkol sa Microsoft Copilot: ang hinaharap o ang maling paraan?

Ang hinaharap ay kay Gemini

Ang paglulunsad ng Gemini ng Google ay naghatid sa isang bagong panahon ng pag-unlad ng AI. Sa pinakamahusay na pagganap nito kumpara sa mga nakaraang modelo at baseline ng tao, itinuturo ng Gemini ang mga posibilidad sa hinaharap ng artificial intelligence, ngunit nangangailangan pa rin ng higit pang pananaliksik upang matugunan ang ilang mga pagkukulang.

Sa hinaharap, maaari mong asahan na ang Gemini ay magbibigay ng mas kapaki-pakinabang at matatalinong feature sa mga produkto ng Google. Sa pagpapatuloy, plano ng kumpanya na patuloy na palawakin ang Gemini nang higit sa Ingles at bumuo sa pangunahing pamamaraan ng modelo nito.

Maaari lamang kaming manood at umaasa na alam ng Google kung ano ang ginagawa nito.

Basahin din:

Higit pa mula sa may-akda

Mag-sign up

0 Comments

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Iba pang mga artikulo

Ano ang Gemini: Lahat ng tungkol sa bagong modelo ng AI ng Google