Hvad er Gemini: Alt om den nye AI-model fra Google

Google har netop frigivet sin mest kraftfulde AI-model, der nogensinde er blevet kaldt Gemini. Hvad er hun og hvad kan hun gøre? Om alt i vores artikel.

Google har udviklet sine egne AI-værktøjer i årevis. Med den offentlige udgivelse af ChatGPT-3 fra OpenAI har firmaet, der driver verdens mest populære søgemaskine, også skabt et lignende værktøj, Bard. Men dette værktøj tabte stadig til konkurrenterne, hvilket Google ikke kunne tillade. Derfor er det ikke overraskende, at verden for nylig så Gemini, en ny sprogmodel fra Google, som vi lærte om under præsentationen.

Den er designet til ikke kun at forbedre gigantens tidligere LLM (Large Language Model), men også til at tilbyde helt nye muligheder inden for tekstbehandling, grafik og lyd.

Så lad os se nærmere på den nye Google Gemini-sprogmodel.

Også interessant: OpenAI Project Q*: hvad det er, og hvorfor projektet er et problem

INDHOLD

1. Hvad er Google Gemini?

2. Hvem har skabt modellen?

3. Muligheder

4. Er der forskellige versioner?

5. Hvordan får man adgang til Gemini?

6. Gemini hos Google Bard: Hvad vil ændre sig?

7. Gemini i Google Pixel-smartphones

8. Hvordan adskiller Gemini sig fra andre AI-modeller, såsom GPT-4?

9. Bekymringer om nøjagtighed og upartiskhed

10. Fremtiden er med Gemini

Hvad er Google Gemini?

Dette er en ny og kraftfuld model for kunstig intelligens fra Google, som ikke kun kan forstå tekst, men også billeder, videoer og lyd. Denne multimodale model beskrives som værende i stand til at udføre komplekse opgaver inden for matematik, fysik og andre domæner, samt forstå og generere højkvalitetskode i en række forskellige programmeringssprog.

Gemini er i øjeblikket tilgængelig gennem integration med Google Bard og Google Pixel 8 og vil gradvist blive inkluderet i andre Google-tjenester.

"Gemini er resultatet af et massivt samarbejde på tværs af Google-teams, inklusive vores kolleger hos Google Research," — sagde Dennis Hassabis, CEO og medstifter af Google DeepMind. "Det blev bygget fra bunden til at være multimodalt, hvilket betyder, at det kan generalisere og problemfrit forstå, operere på og kombinere forskellige typer information, herunder tekst, kode, lyd, billeder og video."

- Annonce -

Også interessant: Ikke alt, hvad vi kalder AI, er faktisk kunstig intelligens. Her er hvad du behøver at vide

Hvem har skabt modellen?

Som du sikkert allerede har gættet, blev Gemini skabt af Google og Alphabet, Googles moderselskab, og er virksomhedens mest avancerede AI-model til dato. Googles DeepMind-division ydede også et væsentligt bidrag til dens udvikling. Det vides endnu ikke, hvor mange medarbejdere, der deltog i udviklingen, og hvilke midler der blev afsat til dette, men ved at kende Googles muligheder kan vi være sikre på, at der er tale om et meget stort beløb.

Også interessant: Windows 12: Hvad bliver det nye operativsystem

Muligheder

Som jeg bemærkede ovenfor, er det en multimodal model, hvilket betyder, at den kan forstå, operere på og kombinere forskellige typer data, herunder tekst, kode, lyd, billeder og video. Det giver bedre forståelse, tænkning og kodningsfærdigheder sammenlignet med tidligere AI-systemer.

Modellens vigtigste egenskaber er:

Naturlig sprogbehandling til opgaver som oversættelse, opsummering og dialog
Matematisk tænkning og problemløsning
Evne til at generere kode og dokumentation
Forstå billeder, lyd og video
Multitasking i forskellige domæner

Som du kan se, er mulighederne overlegne i forhold til andre modeller.

I test af sprogforståelse, matematisk tænkning og kodning overgik Gemini Ultra modeller som GPT-4. Især er det den første model, der udkonkurrerer ydeevnen på menneskeligt niveau på Massive Multitask Language Understanding (MMLU)-testen, der opnår over 90 % nøjagtighed.

I 32 akademiske test af en stor sprogmodelundersøgelse klarede Gemini sig bedre end GPT-4. I 30 tilfælde var den nye sprogmodel fra Google bedre end konkurrenten. Dette demonstrerer modellens evne til fuldt ud at forstå sproget.

Læs også: Human Brain Project: Et forsøg på at efterligne den menneskelige hjerne

Er der forskellige versioner?

Google beskriver denne AI som en fleksibel model, der kan fungere på enhver enhed: fra Googles datacentre til mobile enheder. For at opnå denne skalerbarhed kommer Gemini i tre versioner: Nano, Pro og Ultra.

Lad os tale om de forskellige versioner af Gemini mere detaljeret.

Gemini Nano: designet til at fungere på smartphones, især Google Pixel 8. Den er designet til at udføre opgaver, der kræver effektiv behandling af kunstig intelligens uden at oprette forbindelse til eksterne servere, såsom at foreslå svar i chatprogrammer eller opsummere tekst. Denne kompakte enhedsmodel har omkring 6 milliarder parametre.
GeminiPro: kører i Googles datacentre. Pro er designet til at fungere med den nyeste version af Bard AI chatbot. Det er i stand til at give hurtige svartider og forstå komplekse forespørgsler. En mellemstor model har cirka 100 milliarder parametre og er kernen i Bards konversations-AI. Pro vil være tilgængelig via Google Cloud.
Gemini Ultra: Selvom Ultra-versionen endnu ikke er bredt tilgængelig, beskriver Google den som dens bedst ydende model, der overgår "den nuværende state-of-the-art for 30 ud af 32 udbredte akademiske test, der bruges i forskning i store sprogmodeller (LLM). " Som den største og mest kraftfulde version vil Ultra modtage mere end 1 billion parametre. Det vil blive placeret i datacentre. Ultra er tilpasset til virksomhedsbrug. Versionen er designet til at udføre meget komplekse opgaver. Google planlægger at frigive det efter afslutningen af den nuværende testfase. Det vil sige, at den mest kraftfulde version endnu ikke er tilgængelig for brugerne.

Også interessant: Google Bard AI: Alt hvad du behøver at vide

- Annonce -

Hvordan får man adgang til Gemini?

AI i Nano- og Pro-versioner er nu tilgængelig i Google-produkter som henholdsvis Google Pixel 8-smartphones og Bard-chatbot. Google planlægger i sidste ende at integrere det i sin søgemaskine, annoncering, Gmail-e-mail-tjeneste, Chrome-browser og andre tjenester.

Udviklere og virksomhedskunder vil kunne få adgang til Pro gennem Gemini API i Google AI Studio og Google Cloud Vertex AI fra den 13. december 2023. Udviklere Android vil have adgang til Nano-versionsmodellen via AICore, som vil være tilgængelig i en tidlig preview.

Læs også: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Battle of the Two Yokozuns

Gemini hos Google Bard: Hvad vil ændre sig?

Ifølge informationer givet under præsentationen vil modellen give Google Bard mulighed for bedre at håndtere mere komplekse problemer, som anført:

"Vi designede Gemini, så modellen er naturligt multimodal og fortrænet på flere modaliteter fra starten. Vi forfinede det derefter ved at tilføje flere multimodale data for at forbedre ydeevnen. Som et resultat heraf kan Gemini let forstå og udlede meget bedre end tidligere multimodale modeller og kan prale af avancerede muligheder på næsten alle områder.

Geminis ekstraordinære multimodale egenskaber hjælper dig med at forstå kompleks tekstlig og visuel information. De er især nyttige, når det kommer til at udtrække specifik information fra enorme datasæt. Denne models ekstraordinære evne til at udtrække essensen af information fra hundredtusindvis af dokumenter ved at læse, filtrere og analysere dem, vil uden tvivl bidrage til nye, lynhurtige opdagelser inden for forskellige områder fra videnskab til finans."

Under præsentationen blev et eksempel på en kompleks undersøgelse demonstreret, som indeholder mere end 200 tusinde poster, hvoraf nogle skulle opdateres i henhold til nye data. Som du måske har gættet, ville det være meget tidskrævende at gøre dette manuelt, så studieforfatterne brugte Gemini til at forberede kode, der tog input og lavede de nødvendige opdateringer. Et andet, mere virkeligt eksempel er at bruge Googles sprogmodel til at forklare matematik- eller fysikproblemer.

Inddataene her var et foto/scanning af en opgave fra en skoletime. Systemet var i stand til at behandle grafikken og teksten, der var gemt der, og derefter indikere, hvilke dele af lektierne, der blev udført korrekt, og hvilke der trængte til mere opmærksomhed. Præsentationen viste, at en bruger gentagne gange kan bede Gemini om at forklare en opgave, og hvert efterfølgende forsøg skal forklares i et enklere sprog. Hvor præcis og korrekt Gemini vil være, vil naturligvis blive tjekket af interesserede, men muligheden for at læse og behandle tekst direkte fra billeder er imponerende. Som tilføjet under præsentationen:

"Gemini er blevet lært at genkende og forstå tekst, billeder, lyde og mere på samme tid. Takket være dette forstår han bedre nuancerne af information og kan besvare komplekse spørgsmål. Det er særligt effektivt til at forklare emner relateret til matematik og fysik, så det kan tjene som en personlig lektiehjælper".

Gemini i Google Pixel-smartphones

Google pralede også med, at Gemini "lærte" på de nye TPUv5-chipsæt, og planlægger at introducere Gemini Ultra i begyndelsen af 2024, som vil bruge Bard Advanced, en ny version af forbrugerversionen af gigantens talemodel. Gemini Ultra er i øjeblikket i test og er allerede tilgængelig for udvalgte sikkerhedseksperter.

Den sidste vigtige information er introduktionen af Gemini i Google Pixel 8-smartphones. Dette vil blandt andet give mulighed for at skabe hurtige svar gennem Gboard-applikationen i messengers. Den første er WhatsApp, men næste år vil sådanne løsninger dukke op i andre applikationer relateret til kommunikation. Dette er dog kun begyndelsen, da Google har annonceret mange nye AI-værktøjer til Pixel 8-smartphones, og de vil være tilgængelige på nogle andre enheder i fremtiden. Android. Det er dog yderligere planer, og der er ikke givet detaljer på nuværende tidspunkt.

Hvordan adskiller Gemini sig fra andre AI-modeller, såsom GPT-4?

Googles nye Gemini-model ser ud til at være en af de største og mest avancerede AI-modeller til dato, selvom udgivelsen af Ultra-modellen helt sikkert vil afgøre det. Sammenlignet med andre populære modeller, der i øjeblikket bruger AI-chatbots, skiller Gemini sig ud med sin egen multimodale funktion, mens andre modeller som GPT-4 er afhængige af plugins og integration for at være virkelig multimodale.

Bekymringer om nøjagtighed og upartiskhed

Selvom Gemini er et stort spring fremad i udviklingen af kunstig intelligens-kapaciteter, har den de samme mangler som andre store sprogmodeller. Først og fremmest er dette muligheden for at skabe falsk information. Fordomme er også baseret på de træningsdata, der er tilgængelige for den nye sprogmodel. Det er også værd at nævne den begrænsede forståelse af den virkelige verden. Google indrømmer, at den nye Gemini-model kan lave fejl, give fakta, der ikke er baseret på beviser, og modsige sund fornuft.

Der er brug for flere tests, især for Gemini Ultra, som har nye muligheder, som endnu ikke er blevet fuldt udforsket. Google er forpligtet til omhyggeligt at evaluere Gemini for at minimere potentielle skader.

Også interessant: Alt om Microsoft Copilot: fremtiden eller den forkerte vej?

Fremtiden er med Gemini

Lanceringen af Gemini af Google indledte en ny æra af AI-udvikling. Med sin bedste ydeevne sammenlignet med tidligere modeller og menneskelige basislinjer peger Gemini på de fremtidige muligheder for kunstig intelligens, men har stadig brug for mere forskning for at løse visse mangler.

I fremtiden kan du forvente, at Gemini vil levere mere nyttige og intelligente funktioner i Google-produkter. Fremover planlægger virksomheden at fortsætte med at udvide Gemini ud over engelsk og bygge videre på sin kernemodelmetode.

Vi kan kun se og håbe, at Google ved, hvad det laver.

Læs også:

Mere fra forfatteren

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler

Hvad er Gemini: Alt om Googles nye AI-model