Čo je Gemini: Všetko o novom modeli AI od spoločnosti Google

Google práve vydal svoj najvýkonnejší model AI, aký kedy bol nazvaný Blíženci. Čo je a čo dokáže? O všetkom v našom článku.

Google už roky vyvíja svoje vlastné nástroje AI. S verejným vydaním ChatGPT-3 od OpenAI vytvorila spoločnosť, ktorá prevádzkuje najpopulárnejší vyhľadávací nástroj na svete, podobný nástroj, Bard. Tento nástroj ale aj tak prehral s konkurentmi, na čo Google nedal dopustiť. Preto niet divu, že svet nedávno uzrel Gemini, nový jazykový model od Google, o ktorom sme sa dozvedeli počas prezentácie.

Je navrhnutý tak, aby nielen vylepšil predchádzajúci LLM (Large Language Model) giganta, ale ponúkol aj úplne nové možnosti v oblasti spracovania textu, grafiky a zvuku.

Poďme sa teda bližšie pozrieť na nový jazykový model Google Gemini.

Tiež zaujímavé: OpenAI Project Q*: čo to je a prečo je projekt problémom

OBSAH

1. Čo je Google Gemini?

2. Kto vytvoril model?

3. Príležitosti

4. Existujú rôzne verzie?

5. Ako získať prístup k Gemini?

6. Blíženci v Google Bard: Čo sa zmení?

7. Blíženci v smartfónoch Google Pixel

8. Ako sa Gemini líši od iných modelov AI, ako je GPT-4?

9. Obavy o presnosť a nestrannosť

10. Budúcnosť je s Blížencami

Čo je Google Gemini?

Ide o nový a výkonný model umelej inteligencie od Google, ktorý si vie porozumieť nielen s textom, ale aj s obrázkami, videami a zvukom. Tento multimodálny model je opísaný ako schopný vykonávať zložité úlohy v matematike, fyzike a iných oblastiach, ako aj rozumieť a generovať vysokokvalitný kód v rôznych programovacích jazykoch.

Gemini je momentálne dostupný prostredníctvom integrácie s Google Bard a Google Pixel 8 a postupne bude zaradený aj do ďalších služieb Google.

„Gemini je výsledkom rozsiahleho spoločného úsilia tímov Google vrátane našich kolegov z prieskumu Google,“ — povedal Dennis Hassabis, generálny riaditeľ a spoluzakladateľ Google DeepMind. "Bolo to od základov postavené tak, aby bolo multimodálne, čo znamená, že dokáže zovšeobecniť a bez problémov pochopiť, ovládať a kombinovať rôzne typy informácií vrátane textu, kódu, zvuku, obrázkov a videa."

- Reklama -

Tiež zaujímavé: Nie všetko, čo nazývame AI, je v skutočnosti umelá inteligencia. Tu je to, čo potrebujete vedieť

Kto vytvoril model?

Ako ste už určite uhádli, Gemini vytvorila spoločnosť Google a Alphabet, materská spoločnosť Google, a ide o doteraz najpokročilejší model AI spoločnosti. K jeho rozvoju výrazne prispela aj divízia DeepMind spoločnosti Google. Zatiaľ nie je známe, koľko zamestnancov sa na vývoji podieľalo a aké finančné prostriedky boli naň vyčlenené, no keďže poznáme možnosti Google, môžeme si byť istí, že ide o veľmi veľké množstvo.

Tiež zaujímavé: Windows 12: Aký bude nový operačný systém

Príležitosti

Ako som uviedol vyššie, ide o multimodálny model, čo znamená, že dokáže porozumieť rôznym typom údajov, pracovať s nimi a kombinovať ich, vrátane textu, kódu, zvuku, obrázkov a videa. V porovnaní s predchádzajúcimi systémami AI poskytuje lepšie porozumenie, myslenie a kódovanie.

Hlavné schopnosti modelu sú:

Spracovanie prirodzeného jazyka pre úlohy ako preklad, sumarizácia a dialóg
Matematické myslenie a riešenie problémov
Schopnosť generovať kód a dokumentáciu
Pochopenie obrázkov, zvuku a videa
Multitasking v rôznych doménach

Ako vidíte, schopnosti sú lepšie ako u iných modelov.

V testoch porozumenia jazyka, matematického myslenia a kódovania Gemini Ultra prekonali modely ako GPT-4. Ide najmä o prvý model, ktorý prekonal výkon na ľudskej úrovni v teste MMLU (Massive Multitask Language Understanding), pričom dosiahol presnosť viac ako 90 %.

V 32 akademických testoch veľkého jazykového modelu štúdia Gemini prekonali GPT-4. V 30 prípadoch bol nový jazykový model od Google lepší ako konkurent. To demonštruje schopnosť modelu plne porozumieť jazyku.

Prečítajte si tiež: Projekt ľudského mozgu: Pokus napodobniť ľudský mozog

Existujú rôzne verzie?

Google popisuje túto AI ako flexibilný model, ktorý môže fungovať na akomkoľvek zariadení: od dátových centier Google až po mobilné zariadenia. Na dosiahnutie tejto škálovateľnosti prichádza Gemini v troch verziách: Nano, Pro a Ultra.

Hovorme o rôznych verziách Gemini podrobnejšie.

Blíženci Nano: navrhnutý tak, aby fungoval na smartfónoch, najmä na Google Pixel 8. Je navrhnutý na vykonávanie úloh, ktoré vyžadujú efektívne spracovanie umelou inteligenciou bez pripojenia k externým serverom, ako napríklad navrhovanie odpovedí v chatovacích programoch alebo zhrnutie textu. Tento kompaktný model zariadenia má približne 6 miliárd parametrov.
GeminiPro: beží v dátových centrách Google. Pro je navrhnutý tak, aby fungoval s najnovšou verziou chatbota Bard AI. Je schopný poskytnúť rýchlu odozvu a pochopiť zložité otázky. Model strednej veľkosti má približne 100 miliárd parametrov a je jadrom Bardovej konverzačnej AI. Pro bude k dispozícii cez Google Cloud.
Gemini Ultra: hoci verzia Ultra ešte nie je široko dostupná, Google ju popisuje ako svoj najvýkonnejší model, ktorý prekračuje „súčasný stav techniky pre 30 z 32 široko používaných akademických testov používaných vo výskume veľkých jazykových modelov (LLM). " Ako najväčšia a najvýkonnejšia verzia dostane Ultra viac ako 1 bilión parametrov. Nachádzať sa bude v dátových centrách. Ultra je prispôsobený na firemné použitie. Verzia je navrhnutá na vykonávanie veľmi zložitých úloh. Google ho plánuje vydať po skončení aktuálnej testovacej fázy. To znamená, že najvýkonnejšia verzia zatiaľ nie je používateľom dostupná.

Tiež zaujímavé: Google Bard AI: Všetko, čo potrebujete vedieť

- Reklama -

Ako získať prístup k Gemini?

AI vo verziách Nano a Pro je teraz k dispozícii v produktoch Google, ako sú smartfóny Google Pixel 8 a chatbot Bard. Google ho plánuje časom integrovať do svojho vyhľadávača, reklamy, e-mailovej služby Gmail, prehliadača Chrome a ďalších služieb.

Vývojári a podnikoví zákazníci budú mať od 13. decembra 2023 prístup k Pro cez Gemini API v Google AI Studio a Google Cloud Vertex AI. Vývojári Android bude mať prístup k modelu verzie Nano cez AICore, ktorý bude dostupný v skorej ukážke.

Prečítajte si tiež: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Bitka dvoch Yokozunov

Blíženci v Google Bard: Čo sa zmení?

Podľa informácií poskytnutých počas prezentácie model umožní spoločnosti Google Bard lepšie zvládnuť zložitejšie problémy, ako sa uvádza:

„Navrhli sme Gemini tak, aby bol model prirodzene multimodálny a od začiatku pripravený na viacero modalít. Potom sme ho vylepšili pridaním viacerých multimodálnych údajov na zlepšenie výkonu. V dôsledku toho Gemini ľahko rozumie a odvodzuje oveľa lepšie ako predchádzajúce multimodálne modely a môže sa pochváliť najmodernejšími schopnosťami takmer vo všetkých oblastiach.

Mimoriadne multimodálne schopnosti Gemini vám pomôžu pochopiť zložité textové a vizuálne informácie. Sú užitočné najmä pri získavaní konkrétnych informácií z obrovských súborov údajov. Mimoriadna schopnosť tohto modelu extrahovať podstatu informácií zo stoviek tisícov dokumentov ich čítaním, filtrovaním a analýzou nepochybne prispeje k novým, bleskovo rýchlym objavom v rôznych oblastiach od vedy po financie.“

Počas prezentácie bol demonštrovaný príklad komplexnej štúdie, ktorá obsahuje viac ako 200 tisíc záznamov, z ktorých niektoré bolo potrebné aktualizovať podľa nových údajov. Ako ste možno uhádli, robiť to ručne by bolo veľmi časovo náročné, takže autori štúdie použili Gemini na prípravu kódu, ktorý prevzal vstup a vykonal potrebné aktualizácie. Ďalším príkladom z reálneho sveta je použitie jazykového modelu Google na vysvetlenie matematických alebo fyzikálnych problémov.

Vstupnými údajmi tu bola fotografia/sken zadania zo školskej hodiny. Systém dokázal spracovať grafiku a text, ktorý je tam uložený, a následne označiť, ktoré časti domácej úlohy boli vykonané správne a ktorým je potrebné venovať viac pozornosti. Prezentácia ukázala, že používateľ môže Blíženca opakovane žiadať o vysvetlenie úlohy a každý ďalší pokus musí byť vysvetlený jednoduchším jazykom. Nakoľko budú Blíženci presní a korektní, si, samozrejme, preveria záujemcovia, no pôsobivá je schopnosť čítať a spracovávať text priamo z fotografií. Ako bolo pridané počas prezentácie:

"Blíženci sa naučili rozpoznávať a chápať text, obrázky, zvuky a ďalšie súčasne. Vďaka tomu lepšie rozumie nuansám informácií a dokáže odpovedať na zložité otázky. Je obzvlášť účinný pri vysvetľovaní tém súvisiacich s matematikou a fyzikou, takže môže slúžiť ako osobný pomocník pri domácich úlohách".

Blíženci v smartfónoch Google Pixel

Google sa tiež pochválil, že Gemini sa „učili“ na nových čipsetoch TPUv5 a začiatkom roka 2024 plánuje predstaviť Gemini Ultra, ktorá bude využívať Bard Advanced, novú verziu spotrebiteľskej verzie rečového modelu giganta. Gemini Ultra je momentálne v testovaní a už je k dispozícii vybraným bezpečnostným expertom.

Poslednou dôležitou informáciou je predstavenie Gemini v smartfónoch Google Pixel 8. Tá umožní okrem iného vytvárať rýchle odpovede cez aplikáciu Gboard v messengeroch. Prvým je WhatsApp, no budúci rok sa takéto riešenia objavia aj v ďalších aplikáciách súvisiacich s komunikáciou. Toto je však len začiatok, pretože Google oznámil veľa nových nástrojov AI pre smartfóny Pixel 8 a v budúcnosti budú dostupné aj na niektorých ďalších zariadeniach. Android. Toto sú však ďalšie plány a v tejto chvíli neboli poskytnuté žiadne podrobnosti.

Ako sa Gemini líši od iných modelov AI, ako je GPT-4?

Zdá sa, že nový model Gemini od Googlu je doteraz jedným z najväčších a najpokročilejších modelov AI, aj keď vydanie modelu Ultra to určite určí. V porovnaní s inými populárnymi modelmi, ktoré v súčasnosti používajú AI chatboty, Gemini vyniká svojou vlastnou multimodálnou funkciou, zatiaľ čo iné modely ako GPT-4 sa spoliehajú na to, že pluginy a integrácia sú skutočne multimodálne.

Obavy o presnosť a nestrannosť

Hoci Gemini predstavuje veľký skok vpred vo vývoji schopností umelej inteligencie, má rovnaké nedostatky ako iné veľké jazykové modely. V prvom rade ide o možnosť vytvárania nepravdivých informácií. Predsudky sú tiež založené na tréningových údajoch dostupných pre nový jazykový model. Za zmienku stojí aj obmedzené chápanie reálneho sveta. Google priznáva, že nový model Gemini môže robiť chyby, poskytovať fakty, ktoré sa nezakladajú na dôkazoch a odporujú zdravému rozumu.

Sú potrebné ďalšie testy, najmä pre Gemini Ultra, ktorý má nové možnosti, ktoré ešte nie sú úplne preskúmané. Spoločnosť Google sa zaviazala starostlivo vyhodnotiť Blíženci s cieľom minimalizovať potenciálne škody.

Tiež zaujímavé: Všetko o Microsoft Druhý pilot: budúcnosť alebo nesprávna cesta?

Budúcnosť je s Blížencami

Uvedenie Gemini spoločnosťou Google ohlásilo novú éru vývoja AI. Svojím najlepším výkonom v porovnaní s predchádzajúcimi modelmi a ľudskými základnými líniami Gemini poukazuje na budúce možnosti umelej inteligencie, no stále potrebuje ďalší výskum na odstránenie určitých nedostatkov.

V budúcnosti môžete očakávať, že Gemini bude v produktoch Google poskytovať užitočnejšie a inteligentnejšie funkcie. V budúcnosti spoločnosť plánuje pokračovať v rozširovaní Gemini za hranice angličtiny a stavať na svojej základnej modelovej metodológii.

Môžeme len sledovať a dúfať, že Google vie, čo robí.

Prečítajte si tiež:

Viac od autora

Prihlásiť Se

0 Komentáre

Vložené recenzie

Zobraziť všetky komentáre

Ďalšie články

Čo je Gemini: Všetko o novom modeli AI od Googlu