Kaj je Gemini: Vse o novem Googlovem modelu AI

Google je pravkar izdal svoj najzmogljivejši model AI doslej Gemini. Kaj je in kaj zmore? O vsem v našem članku.

Google že leta razvija lastna orodja AI. Z javno izdajo ChatGPT-3 iz OpenAI je podjetje, ki vodi najbolj priljubljen iskalnik na svetu, ustvarilo podobno orodje, Bard. Toda to orodje je še vedno izgubilo pred konkurenti, česar Google ni mogel dovoliti. Zato ne preseneča, da je pred kratkim svet zagledal Gemini, nov jezikovni model podjetja Google, ki smo ga spoznali na predstavitvi.

Zasnovan je ne samo za izboljšanje prejšnjega LLM (Large Language Model) velikana, temveč tudi za to, da ponudi povsem nove možnosti na področju obdelave besedil, grafike in zvoka.

Oglejmo si torej pobližje novi jezikovni model Google Gemini.

Zanimivo tudi: OpenAI Project Q*: kaj je to in zakaj je projekt zaskrbljujoč

VSEBINA

1. Kaj je Google Gemini?

2. Kdo je ustvaril model?

3. Priložnosti

4. Ali obstajajo različne različice?

5. Kako priti do Gemini?

6. Gemini pri Google Bardu: Kaj se bo spremenilo?

7. Gemini v pametnih telefonih Google Pixel

8. Kako se Gemini razlikuje od drugih modelov AI, kot je GPT-4?

9. Pomisleki glede točnosti in nepristranskosti

10. Prihodnost je z Dvojčki

Kaj je Google Gemini?

To je nov in zmogljiv model umetne inteligence podjetja Google, ki ne razume samo besedila, ampak tudi slike, videe in zvok. Ta multimodalni model je opisan tako, da lahko izvaja kompleksne naloge v matematiki, fiziki in drugih področjih ter razume in ustvarja visokokakovostno kodo v različnih programskih jezikih.

Gemini je trenutno na voljo prek integracije z Google Bard in Google Pixel 8 in bo postopoma vključen v druge Googlove storitve.

"Gemini je rezultat velikega sodelovanja med Googlovimi ekipami, vključno z našimi kolegi iz Google Research," — je dejal Dennis Hassabis, izvršni direktor in soustanovitelj Google DeepMind. "Od samega začetka je bil zgrajen tako, da je multimodalen, kar pomeni, da lahko posplošuje in brezhibno razume, deluje in združuje različne vrste informacij, vključno z besedilom, kodo, zvokom, slikami in videom."

- Oglas -

Zanimivo tudi: Ni vse, kar imenujemo AI, dejansko umetna inteligenca. Tukaj je tisto, kar morate vedeti

Kdo je ustvaril model?

Kot ste verjetno že uganili, sta Gemini ustvarila Google in Alphabet, Googlova matična družba, in je najnaprednejši model AI podjetja doslej. K njegovemu razvoju je pomembno prispeval tudi Googlov oddelek DeepMind. Koliko zaposlenih je sodelovalo pri razvoju in kakšna sredstva so bila za to namenjena, še ni znano, a ob poznavanju Googlovih zmožnosti smo lahko prepričani, da gre za zelo velik znesek.

Zanimivo tudi: Windows 12: Kaj bo novi OS

Priložnosti

Kot sem omenil zgoraj, je multimodalni model, kar pomeni, da lahko razume, deluje in združuje različne vrste podatkov, vključno z besedilom, kodo, zvokom, slikami in videom. Zagotavlja boljše razumevanje, razmišljanje in spretnosti kodiranja v primerjavi s prejšnjimi sistemi AI.

Glavne zmogljivosti modela so:

Obdelava naravnega jezika za naloge, kot so prevajanje, povzemanje in dialog
Matematično razmišljanje in reševanje problemov
Sposobnost ustvarjanja kode in dokumentacije
Razumevanje slik, zvoka in videa
Večopravilnost na različnih področjih

Kot lahko vidite, so zmogljivosti boljše od drugih modelov.

Pri testih razumevanja jezika, matematičnega razmišljanja in kodiranja je Gemini Ultra presegel modele, kot je GPT-4. Zlasti je prvi model, ki je presegel zmogljivost na ravni človeka na testu razumevanja množičnega večopravilnega jezika (MMLU) in dosegel več kot 90-odstotno natančnost.

V 32 akademskih testih velike študije jezikovnega modela je Gemini presegel GPT-4. V 30 primerih je bil novi Googlov jezikovni model boljši od konkurenta. To dokazuje sposobnost modela, da popolnoma razume jezik.

Preberite tudi: Projekt človeških možganov: Poskus posnemanja človeških možganov

Ali obstajajo različne različice?

Google opisuje ta AI kot prilagodljiv model, ki lahko deluje na kateri koli napravi: od Googlovih podatkovnih centrov do mobilnih naprav. Za doseganje te razširljivosti je Gemini na voljo v treh različicah: Nano, Pro in Ultra.

Pogovorimo se o različnih različicah Gemini podrobneje.

Gemini Nano: zasnovan za delo na pametnih telefonih, zlasti Google Pixel 8. Zasnovan je za izvajanje nalog, ki zahtevajo učinkovito obdelavo s strani umetne inteligence brez povezave z zunanjimi strežniki, kot je predlaganje odgovorov v programih za klepet ali povzemanje besedila. Ta kompaktni model naprave ima približno 6 milijard parametrov.
GeminiPro: deluje v Googlovih podatkovnih centrih. Pro je zasnovan za delo z najnovejšo različico klepetalnega robota Bard AI. Sposoben je zagotoviti hitre odzivne čase in razumeti zapletene poizvedbe. Srednje velik model ima približno 100 milijard parametrov in je jedro Bardove pogovorne umetne inteligence. Pro bo na voljo prek storitve Google Cloud.
Gemini Ultra: medtem ko različica Ultra še ni široko dostopna, jo Google opisuje kot svoj najuspešnejši model, ki presega "trenutno stanje tehnike za 30 od 32 široko uporabljenih akademskih testov, ki se uporabljajo v raziskavah velikih jezikovnih modelov (LLM). " Kot največja in najmočnejša različica bo Ultra prejela več kot 1 bilijon parametrov. Nahajal se bo v podatkovnih centrih. Ultra je prilagojena za uporabo v podjetjih. Različica je zasnovana za opravljanje zelo kompleksnih nalog. Google ga namerava izdati po koncu trenutne faze testiranja. To pomeni, da najmočnejša različica še ni na voljo uporabnikom.

Zanimivo tudi: Google Bard AI: vse, kar morate vedeti

- Oglas -

Kako priti do Gemini?

AI v različicah Nano in Pro je zdaj na voljo v Googlovih izdelkih, kot sta pametni telefon Google Pixel 8 in klepetalni robot Bard. Google ga namerava sčasoma integrirati v svoj iskalnik, oglaševanje, e-poštno storitev Gmail, brskalnik Chrome in druge storitve.

Razvijalci in poslovne stranke bodo lahko od 13. decembra 2023 do Pro dostopali prek API-ja Gemini v Google AI Studio in Google Cloud Vertex AI. Razvijalci Android bo imel dostop do modela različice Nano prek AICore, ki bo na voljo v zgodnjem predogledu.

Preberite tudi: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Bitka dveh Yokozunov

Gemini pri Google Bardu: Kaj se bo spremenilo?

Glede na informacije, posredovane med predstavitvijo, bo model omogočil Googlu Bard boljše reševanje kompleksnejših problemov, kot je navedeno:

»Gemini smo zasnovali tako, da je model naravno multimodalen in že od samega začetka vnaprej usposobljen za več modalitet. Nato smo ga izboljšali z dodajanjem več multimodalnih podatkov za izboljšanje učinkovitosti. Kot rezultat, Gemini zlahka razume in sklepa veliko bolje kot prejšnji multimodalni modeli in se ponaša z najsodobnejšimi zmogljivostmi na skoraj vseh področjih.

Geminijeve izjemne multimodalne zmogljivosti vam pomagajo razumeti kompleksne besedilne in vizualne informacije. Še posebej so uporabni, ko gre za pridobivanje specifičnih informacij iz ogromnih nizov podatkov. Izjemna sposobnost tega modela, da iz več sto tisoč dokumentov izlušči bistvo informacij z njihovim branjem, filtriranjem in analiziranjem, bo nedvomno pripomogla k novim, bliskovitim odkritjem na različnih področjih od znanosti do financ.«

Med predstavitvijo je bil prikazan primer kompleksne študije, ki vsebuje več kot 200 tisoč zapisov, od katerih je bilo treba nekatere posodobiti glede na nove podatke. Kot ste morda uganili, bi bilo to ročno početje zelo zamudno, zato so avtorji študije uporabili Gemini za pripravo kode, ki je prevzela vnos in naredila potrebne posodobitve. Drug, bolj resničen primer je uporaba Googlovega jezikovnega modela za razlago matematičnih ali fizikalnih problemov.

Vhodni podatek je bila fotografija/sken naloge iz šolske ure. Sistem je lahko obdelal grafiko in besedilo, ki je bilo tam shranjeno, in nato pokazal, kateri deli domače naloge so bili opravljeni pravilno in katerim je bilo treba posvetiti več pozornosti. Predstavitev je pokazala, da lahko uporabnik Geminija večkrat prosi za razlago naloge, vsak nadaljnji poskus pa mora razložiti v preprostejšem jeziku. Kako natančen in pravilen bo Gemini, bodo seveda zainteresirani preverili, navdušuje pa možnost branja in obdelave besedila neposredno s fotografij. Kot dodano med predstavitvijo:

"Dvojček je bil naučen prepoznati in razumeti besedilo, slike, zvoke in še več hkrati. Zahvaljujoč temu bolje razume nianse informacij in lahko odgovori na zapletena vprašanja. Posebej učinkovit je pri razlagi tem, povezanih z matematiko in fiziko, zato lahko služi kot osebni pomočnik pri domačih nalogah".

Gemini v pametnih telefonih Google Pixel

Google se je tudi pohvalil, da se je Gemini "učil" na novih naborih čipov TPUv5 in namerava v začetku leta 2024 predstaviti Gemini Ultra, ki bo uporabljal Bard Advanced, novo različico potrošniške različice govornega modela velikana. Gemini Ultra je trenutno v fazi testiranja in je že na voljo izbranim varnostnim strokovnjakom.

Zadnja pomembna informacija je uvedba Geminija v pametne telefone Google Pixel 8. Ta bo med drugim omogočal ustvarjanje hitrih odgovorov prek aplikacije Gboard v sporočilih. Prvi je WhatsApp, naslednje leto pa se bodo takšne rešitve pojavile tudi v drugih aplikacijah, povezanih s komunikacijo. Vendar je to šele začetek, saj je Google napovedal veliko novih orodij AI za pametne telefone Pixel 8, v prihodnosti pa bodo na voljo tudi na nekaterih drugih napravah. Android. Vendar so to nadaljnji načrti in zaenkrat niso podane nobene podrobnosti.

Kako se Gemini razlikuje od drugih modelov AI, kot je GPT-4?

Zdi se, da bo Googlov novi model Gemini eden največjih in najnaprednejših modelov umetne inteligence doslej, čeprav bo izdaja modela Ultra to zagotovo odločila. V primerjavi z drugimi priljubljenimi modeli, ki trenutno uporabljajo klepetalne robote z umetno inteligenco, Gemini izstopa s svojo multimodalno funkcijo, medtem ko se drugi modeli, kot je GPT-4, zanašajo na vtičnike in integracijo, da so resnično multimodalni.

Pomisleki glede točnosti in nepristranskosti

Čeprav je Gemini velik korak naprej v razvoju zmogljivosti umetne inteligence, ima enake pomanjkljivosti kot drugi večji jezikovni modeli. Najprej je to možnost ustvarjanja lažnih informacij. Pristranskosti temeljijo tudi na podatkih o usposabljanju, ki so na voljo novemu jezikovnemu modelu. Omeniti velja tudi omejeno razumevanje realnega sveta. Google priznava, da lahko novi model Gemini dela napake, zagotavlja dejstva, ki ne temeljijo na dokazih in so v nasprotju z zdravo pametjo.

Potrebnih je več testov, zlasti za Gemini Ultra, ki ima nove zmogljivosti, ki še niso v celoti raziskane. Google je zavezan skrbnemu ocenjevanju Geminija, da bi čim bolj zmanjšal morebitno škodo.

Zanimivo tudi: Vse o Microsoft Kopilot: prihodnost ali napačna pot?

Prihodnost je z Dvojčki

Google je predstavil Gemini in začel novo dobo razvoja umetne inteligence. S svojo najboljšo zmogljivostjo v primerjavi s prejšnjimi modeli in človeškimi izhodišči Gemini kaže na prihodnje možnosti umetne inteligence, vendar potrebuje še več raziskav za odpravo določenih pomanjkljivosti.

V prihodnosti lahko pričakujete, da bo Gemini zagotovil bolj uporabne in inteligentne funkcije v Googlovih izdelkih. V prihodnosti namerava podjetje še naprej širiti Gemini izven angleščine in graditi na svoji osnovni metodologiji modela.

Lahko samo gledamo in upamo, da Google ve, kaj počne.

Preberite tudi:

Več od avtorja

Prijavite se

0 Komentarji

Vdelana mnenja

Prikaži vse komentarje

Drugi članki

Kaj je Gemini: Vse o Googlovem novem modelu AI