Kas ir Gemini: viss par jauno Google AI modeli

Google tikko ir izlaidusi savu jaudīgāko AI modeli, kāds jebkad ir nosaukts Dvīņi. Kas viņa ir un ko viņa var darīt? Par visu mūsu rakstā.

Google jau gadiem ilgi ir izstrādājis savus AI rīkus. Līdz ar OpenAI ChatGPT-3 publisko izlaišanu uzņēmums, kas pārvalda pasaulē populārāko meklētājprogrammu, ir arī izveidojis līdzīgu rīku Bard. Bet šis rīks joprojām zaudēja konkurentiem, ko Google nevarēja atļaut. Tāpēc nav pārsteidzoši, ka pasaule nesen ieraudzīja Gemini, jaunu Google valodas modeli, par kuru uzzinājām prezentācijas laikā.

Tas ir izstrādāts ne tikai, lai uzlabotu giganta iepriekšējo LLM (Large Language Model), bet arī piedāvātu pilnīgi jaunas iespējas teksta apstrādes, grafikas un skaņas jomā.

Tāpēc apskatīsim tuvāk jauno Google Gemini valodas modeli.

Interesanti arī: OpenAI Project Q*: kas tas ir un kāpēc projekts rada bažas

SATURS

1. Kas ir Google Gemini?

2. Kas radīja modeli?

3. Iespējas

4. Vai ir dažādas versijas?

5. Kā piekļūt Dvīņiem?

6. Dvīņi Google Bardā: kas mainīsies?

7. Gemini Google Pixel viedtālruņos

8. Kā Gemini atšķiras no citiem AI modeļiem, piemēram, GPT-4?

9. Bažas par precizitāti un objektivitāti

10. Nākotne ir ar Dvīņiem

Kas ir Google Gemini?

Šis ir jauns un jaudīgs Google mākslīgā intelekta modelis, kas spēj saprast ne tikai tekstu, bet arī attēlus, video un audio. Šis multimodālais modelis ir aprakstīts kā spējīgs veikt sarežģītus uzdevumus matemātikā, fizikā un citās jomās, kā arī saprast un ģenerēt augstas kvalitātes kodu dažādās programmēšanas valodās.

Gemini pašlaik ir pieejams, integrējot ar Google Bard un Google Pixel 8, un pakāpeniski tiks iekļauts citos Google pakalpojumos.

"Gemini ir Google komandu, tostarp mūsu kolēģu Google Research, kopdarba rezultāts," — teica Deniss Hassabis, Google DeepMind izpilddirektors un līdzdibinātājs. "Tas tika izveidots no paša sākuma, lai būtu multimodāls, kas nozīmē, ka tas var vispārināt un nemanāmi saprast, darboties un apvienot dažāda veida informāciju, tostarp tekstu, kodu, audio, attēlus un video."

- Reklāma -

Interesanti arī: Ne viss, ko mēs saucam par AI, patiesībā ir mākslīgais intelekts. Lūk, kas jums jāzina

Kas radīja modeli?

Kā jūs droši vien jau uzminējāt, Gemini radīja Google un Google mātesuzņēmums Alphabet, un tas ir uzņēmuma līdz šim vismodernākais AI modelis. Būtisku ieguldījumu tās attīstībā sniedza arī Google DeepMind nodaļa. Pagaidām nav zināms, cik darbinieku piedalījušies izstrādē un kādi līdzekļi tam tika atvēlēti, taču, zinot Google iespējas, varam būt droši, ka tā ir ļoti liela summa.

Interesanti arī: Windows 12: kāda būs jaunā OS

Iespējas

Kā jau minēju iepriekš, tas ir multimodāls modelis, kas nozīmē, ka tas var saprast, darboties un apvienot dažāda veida datus, tostarp tekstu, kodu, audio, attēlus un video. Tas nodrošina labākas izpratnes, domāšanas un kodēšanas prasmes salīdzinājumā ar iepriekšējām AI sistēmām.

Modeļa galvenās iespējas ir:

Dabiskās valodas apstrāde tādiem uzdevumiem kā tulkošana, apkopošana un dialogs
Matemātiskā domāšana un problēmu risināšana
Spēja ģenerēt kodu un dokumentāciju
Izpratne par attēliem, audio un video
Daudzuzdevumu veikšana dažādās jomās

Kā redzat, iespējas ir pārākas par citiem modeļiem.

Valodas izpratnes, matemātiskās domāšanas un kodēšanas testos Gemini Ultra pārspēja modeļus, piemēram, GPT-4. Konkrēti, tas ir pirmais modelis, kas pārspēj cilvēka līmeņa veiktspēju Massive Multitask Language Understanding (MMLU) testā, sasniedzot vairāk nekā 90% precizitāti.

Liela valodas modeļa pētījuma 32 akadēmiskajos testos Gemini pārspēja GPT-4. 30 gadījumos Google jaunais valodas modelis bija labāks par konkurentu. Tas parāda modeļa spēju pilnībā saprast valodu.

Lasi arī: Cilvēka smadzeņu projekts: mēģinājums atdarināt cilvēka smadzenes

Vai ir dažādas versijas?

Google apraksta šo AI kā elastīgu modeli, kas var darboties jebkurā ierīcē: no Google datu centriem līdz mobilajām ierīcēm. Lai sasniegtu šo mērogojamību, Gemini ir trīs versijās: Nano, Pro un Ultra.

Parunāsim par dažādām Gemini versijām sīkāk.

Dvīņi Nano: paredzēts darbam ar viedtālruņiem, jo īpaši Google Pixel 8. Tas ir paredzēts, lai veiktu uzdevumus, kuriem nepieciešama efektīva mākslīgā intelekta apstrāde, neveidojot savienojumu ar ārējiem serveriem, piemēram, ieteikt atbildes tērzēšanas programmās vai apkopot tekstu. Šim kompaktajam ierīces modelim ir aptuveni 6 miljardi parametru.
Dvīņi Pro: darbojas Google datu centros. Pro ir paredzēts darbam ar jaunāko Bard AI tērzēšanas robota versiju. Tas spēj nodrošināt ātru atbildes laiku un izprast sarežģītus vaicājumus. Vidēja izmēra modelim ir aptuveni 100 miljardi parametru, un tas ir Barda sarunvalodas AI kodols. Pro būs pieejams, izmantojot Google Cloud.
Gemini Ultra: lai gan Ultra versija vēl nav plaši pieejama, Google to raksturo kā vislabāko veiktspējas modeli, kas pārsniedz pašreizējo jaunāko līmeni 30 no 32 plaši izmantotajiem akadēmiskajiem testiem, ko izmanto lielo valodu modeļu (LLM) pētījumos. " Kā lielākā un jaudīgākā versija Ultra saņems vairāk nekā 1 triljonu parametru. Tas atradīsies datu centros. Ultra ir pielāgots korporatīvai lietošanai. Versija ir paredzēta ļoti sarežģītu uzdevumu veikšanai. Google plāno to izlaist pēc pašreizējās testēšanas fāzes beigām. Tas ir, jaudīgākā versija lietotājiem vēl nav pieejama.

Interesanti arī: Google Bard AI: viss, kas jums jāzina

- Reklāma -

Kā piekļūt Dvīņiem?

AI versijas Nano un Pro tagad ir pieejamas Google produktos, piemēram, Google Pixel 8 viedtālruņos un Bard tērzēšanas robotā. Google plāno to galu galā integrēt savā meklētājprogrammā, reklāmā, Gmail e-pasta pakalpojumā, pārlūkprogrammā Chrome un citos pakalpojumos.

Sākot ar 13. gada 2023. decembri, izstrādātāji un uzņēmumu klienti varēs piekļūt Pro, izmantojot Gemini API programmā Google AI Studio un Google Cloud Vertex AI. Izstrādātāji Android būs piekļuve Nano versijas modelim, izmantojot AICore, kas būs pieejams agrīnā priekšskatījumā.

Lasi arī: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: divu jokozūnu cīņa

Dvīņi Google Bardā: kas mainīsies?

Saskaņā ar prezentācijas laikā sniegto informāciju, modelis ļaus Google Bard labāk risināt sarežģītākas problēmas, kā teikts:

“Mēs izstrādājām Gemini tā, lai modelis būtu dabiski multimodāls un jau no paša sākuma būtu apmācīts vairākās modalitātēs. Pēc tam mēs to uzlabojām, pievienojot vairāk multimodālu datu, lai uzlabotu veiktspēju. Rezultātā Gemini viegli saprot un izdara daudz labākus secinājumus nekā iepriekšējie multimodālie modeļi, kā arī lepojas ar vismodernākajām iespējām gandrīz visās jomās.

Gemini neparastās multimodālās iespējas palīdz izprast sarežģītu tekstuālo un vizuālo informāciju. Tie ir īpaši noderīgi, ja runa ir par konkrētas informācijas iegūšanu no milzīgām datu kopām. Šī modeļa neparastā spēja iegūt informācijas būtību no simtiem tūkstošu dokumentu, tos lasot, filtrējot un analizējot, neapšaubāmi veicinās jaunus, zibens ātrus atklājumus dažādās jomās, sākot no zinātnes līdz finansēm.

Prezentācijas laikā tika demonstrēts kompleksa pētījuma piemērs, kurā ir vairāk nekā 200 tūkstoši ierakstu, no kuriem daļa bija jāatjauno pēc jauniem datiem. Kā jūs varētu uzminēt, manuāli veikt šo darbību būtu ļoti laikietilpīga, tāpēc pētījuma autori izmantoja Gemini, lai sagatavotu kodu, kas ņēma ievadi un veica nepieciešamos atjauninājumus. Vēl viens, reālāks piemērs ir Google valodas modeļa izmantošana, lai izskaidrotu matemātikas vai fizikas problēmas.

Ievaddati šeit bija skolas stundas uzdevuma fotoattēls/skenēts. Sistēma spēja apstrādāt tur glabātos grafikus un tekstu un pēc tam norādīt, kuras mājasdarbu daļas izpildītas pareizi un kurām jāpievērš lielāka uzmanība. Prezentācijā tika parādīts, ka lietotājs var atkārtoti lūgt Dvīņiem paskaidrot kādu uzdevumu, un katrs nākamais mēģinājums ir jāpaskaidro vienkāršākā valodā. Cik precīzi un pareizi būs Dvīņi, to, protams, pārbaudīs interesenti, taču spēja lasīt un apstrādāt tekstu tieši no fotogrāfijām ir iespaidīga. Kā pievienots prezentācijas laikā:

"Dvīņi ir iemācīti vienlaikus atpazīt un saprast tekstu, attēlus, skaņas un daudz ko citu. Pateicoties tam, viņš labāk izprot informācijas nianses un var atbildēt uz sarežģītiem jautājumiem. Tas ir īpaši efektīvs ar matemātiku un fiziku saistītu tēmu skaidrošanā, tāpēc tas var kalpot kā personīgais mājasdarbu palīgs".

Gemini Google Pixel viedtālruņos

Google arī lepojās, ka Gemini "mācījās" par jaunajiem TPUv5 mikroshēmojumiem, un plāno 2024. gada sākumā ieviest Gemini Ultra, kurā tiks izmantota Bard Advanced, jauna giganta runas modeļa patērētāju versijas versija. Gemini Ultra pašlaik tiek testēts, un tas jau ir pieejams atsevišķiem drošības ekspertiem.

Pēdējā svarīgā informācija ir Gemini ieviešana viedtālruņos Google Pixel 8. Tas cita starpā ļaus izveidot ātras atbildes, izmantojot Gboard aplikāciju kurjeros. Pirmā ir WhatsApp, bet nākamgad šādi risinājumi parādīsies citās ar komunikāciju saistītās aplikācijās. Tomēr tas ir tikai sākums, jo Google ir paziņojis par daudziem jauniem AI rīkiem Pixel 8 viedtālruņiem, un tie nākotnē būs pieejami arī dažās citās ierīcēs. Android. Tomēr tie ir tālāki plāni, un pagaidām sīkāka informācija netiek sniegta.

Kā Gemini atšķiras no citiem AI modeļiem, piemēram, GPT-4?

Google jaunais Gemini modelis, šķiet, ir viens no lielākajiem un progresīvākajiem mākslīgā intelekta modeļiem līdz šim, lai gan Ultra modeļa izlaišana to noteikti noteiks. Salīdzinājumā ar citiem populāriem modeļiem, kas pašlaik izmanto AI tērzēšanas robotus, Gemini izceļas ar savu multimodālo funkciju, savukārt citi modeļi, piemēram, GPT-4, paļaujas uz spraudņiem un integrāciju, lai tie būtu patiesi multimodāli.

Bažas par precizitāti un objektivitāti

Lai gan Gemini ir liels solis uz priekšu mākslīgā intelekta iespēju attīstībā, tam ir tādi paši trūkumi kā citiem galvenajiem valodu modeļiem. Pirmkārt, tā ir iespēja radīt nepatiesu informāciju. Novirzes ir balstītas arī uz apmācību datiem, kas pieejami jaunajam valodas modelim. Ir arī vērts pieminēt ierobežoto izpratni par reālo pasauli. Google atzīst, ka jaunais Gemini modelis var kļūdīties, sniegt faktus, kas nav balstīti uz pierādījumiem un ir pretrunā veselajam saprātam.

Nepieciešams vairāk testu, īpaši Gemini Ultra, kuram ir jaunas iespējas, kas vēl nav pilnībā izpētītas. Google ir apņēmies rūpīgi novērtēt Gemini, lai samazinātu iespējamo kaitējumu.

Interesanti arī: Viss par Microsoft Otrais pilots: nākotne vai nepareizs ceļš?

Nākotne ir ar Dvīņiem

Google laižot klajā Gemini, sākās jauns AI attīstības laikmets. Ar savu labāko sniegumu salīdzinājumā ar iepriekšējiem modeļiem un cilvēku bāzes līnijām Gemini norāda uz mākslīgā intelekta nākotnes iespējām, taču joprojām ir nepieciešams vairāk pētījumu, lai novērstu noteiktus trūkumus.

Nākotnē Gemini Google produktos nodrošinās noderīgākas un viedākas funkcijas. Turpmāk uzņēmums plāno turpināt paplašināt Gemini ārpus angļu valodas un balstīties uz savu pamata modeļa metodoloģiju.

Mēs varam tikai skatīties un cerēt, ka Google zina, ko tas dara.

Lasi arī:

Vairāk no autora

Pierakstīties

0 komentāri

Iegultās atsauksmes

Skatīt visus komentārus

Citi raksti

Kas ir Gemini: viss par Google jauno AI modeli