Vad är Gemini: Allt om den nya AI-modellen från Google

Google har precis släppt sin mest kraftfulla AI-modell som någonsin kallats tvillingarna. Vad är hon och vad kan hon göra? Om allt i vår artikel.

Google har utvecklat sina egna AI-verktyg i flera år. Med den offentliga releasen av ChatGPT-3 från OpenAI har företaget som driver världens mest populära sökmotor också skapat ett liknande verktyg, Bard. Men detta verktyg förlorade fortfarande för konkurrenter, vilket Google inte kunde tillåta. Därför är det inte förvånande att världen nyligen såg Gemini, en ny språkmodell från Google, som vi lärde oss om under presentationen.

Den är utformad inte bara för att förbättra jättens tidigare LLM (Large Language Model) utan också för att erbjuda helt nya möjligheter inom textbehandling, grafik och ljud.

Så låt oss ta en närmare titt på den nya språkmodellen Google Gemini.

Också intressant: OpenAI Project Q*: vad det är och varför projektet är ett problem

INNEHÅLL

1. Vad är Google Gemini?

2. Vem skapade modellen?

3. Möjligheter

4. Finns det olika versioner?

5. Hur får man tillgång till Gemini?

6. Tvillingarna på Google Bard: Vad kommer att förändras?

7. Tvillingarna i Google Pixel-smarttelefoner

8. Hur skiljer sig Gemini från andra AI-modeller, som GPT-4?

9. Oro för noggrannhet och opartiskhet

10. Framtiden är med Tvillingarna

Vad är Google Gemini?

Detta är en ny och kraftfull modell av artificiell intelligens från Google, som inte bara kan förstå text utan även bilder, videor och ljud. Denna multimodala modell beskrivs som att den kan utföra komplexa uppgifter inom matematik, fysik och andra domäner, samt förstå och generera högkvalitativ kod i en mängd olika programmeringsspråk.

Gemini är för närvarande tillgänglig genom integration med Google Bard och Google Pixel 8 och kommer gradvis att inkluderas i andra Google-tjänster.

"Gemini är resultatet av ett massivt samarbete mellan Googles team, inklusive våra kollegor på Google Research," — sa Dennis Hassabis, VD och medgrundare av Google DeepMind. "Den byggdes från grunden för att vara multimodal, vilket innebär att den kan generalisera och sömlöst förstå, arbeta på och kombinera olika typer av information, inklusive text, kod, ljud, bilder och video."

- Annons -

Också intressant: Inte allt vi kallar AI är faktiskt artificiell intelligens. Här är vad du behöver veta

Vem skapade modellen?

Som du säkert redan har gissat skapades Gemini av Google och Alphabet, Googles moderbolag, och är företagets hittills mest avancerade AI-modell. Googles DeepMind-division gav också ett betydande bidrag till dess utveckling. Det är ännu inte känt hur många anställda som deltog i utvecklingen och vilka medel som avsattes för detta, men med kännedom om Googles kapacitet kan vi vara säkra på att det rör sig om ett mycket stort belopp.

Också intressant: Windows 12: Vad blir det nya operativsystemet

Möjligheter

Som jag noterade ovan är det en multimodal modell, vilket betyder att den kan förstå, arbeta på och kombinera olika typer av data, inklusive text, kod, ljud, bilder och video. Det ger bättre förståelse, tänkande och kodningsförmåga jämfört med tidigare AI-system.

Modellens huvudsakliga funktioner är:

Naturlig språkbehandling för uppgifter som översättning, sammanfattning och dialog
Matematiskt tänkande och problemlösning
Förmåga att generera kod och dokumentation
Förstå bilder, ljud och video
Multitasking inom olika domäner

Som du kan se är funktionerna överlägsna andra modeller.

I tester av språkförståelse, matematiskt tänkande och kodning överträffade Gemini Ultra modeller som GPT-4. I synnerhet är det den första modellen som överträffar prestanda på mänsklig nivå i testet Massive Multitask Language Understanding (MMLU) och uppnår över 90 % noggrannhet.

I 32 akademiska test av en stor språkmodellstudie överträffade Gemini GPT-4. I 30 fall var den nya språkmodellen från Google bättre än konkurrenten. Detta visar modellens förmåga att helt förstå språket.

Läs också: Human Brain Project: Ett försök att imitera den mänskliga hjärnan

Finns det olika versioner?

Google beskriver denna AI som en flexibel modell som kan fungera på alla enheter: från Googles datacenter till mobila enheter. För att uppnå denna skalbarhet kommer Gemini i tre versioner: Nano, Pro och Ultra.

Låt oss prata mer om de olika versionerna av Gemini.

Tvillingdvärg: designad för att fungera på smartphones, särskilt Google Pixel 8. Den är utformad för att utföra uppgifter som kräver effektiv bearbetning av artificiell intelligens utan att ansluta till externa servrar, som att föreslå svar i chattprogram eller sammanfatta text. Denna kompakta enhetsmodell har cirka 6 miljarder parametrar.
GeminiPro: körs i Googles datacenter. Pro är designad för att fungera med den senaste versionen av Bard AI chatbot. Det kan ge snabba svarstider och förstå komplexa frågor. En medelstor modell har cirka 100 miljarder parametrar och är kärnan i Bards konversations-AI. Pro kommer att vara tillgänglig via Google Cloud.
Gemini Ultra: även om Ultra-versionen ännu inte är allmänt tillgänglig, beskriver Google den som sin bäst presterande modell, och överträffar "den nuvarande toppmoderna för 30 av 32 allmänt använda akademiska tester som används i forskning om stora språkmodeller (LLM). " Som den största och mest kraftfulla versionen kommer Ultra att få mer än 1 biljon parametrar. Den kommer att ligga i datacenter. Ultra är anpassad för företagsbruk. Versionen är designad för att utföra mycket komplexa uppgifter. Google planerar att släppa den efter slutet av den nuvarande testfasen. Det vill säga den mest kraftfulla versionen är ännu inte tillgänglig för användarna.

Också intressant: Google Bard AI: Allt du behöver veta

- Annons -

Hur får man tillgång till Gemini?

AI i Nano- och Pro-versioner är nu tillgängliga i Google-produkter som Google Pixel 8-smarttelefonerna respektive Bard-chatboten. Google planerar att så småningom integrera det i sin sökmotor, reklam, Gmail e-posttjänst, webbläsare Chrome och andra tjänster.

Utvecklare och företagskunder kommer att kunna få åtkomst till Pro genom Gemini API i Google AI Studio och Google Cloud Vertex AI från och med den 13 december 2023. Utvecklare Android kommer att ha tillgång till Nano-versionsmodellen via AICore, som kommer att finnas tillgänglig i en tidig förhandsvisning.

Läs också: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Battle of the Two Yokozuns

Tvillingarna på Google Bard: Vad kommer att förändras?

Enligt informationen under presentationen kommer modellen att tillåta Google Bard att bättre hantera mer komplexa problem, som sagt:

"Vi designade Gemini så att modellen är naturligt multimodal och förutbildad på flera modaliteter från början. Vi förfinade det sedan genom att lägga till fler multimodala data för att förbättra prestandan. Som ett resultat kan Gemini lätt förstå och dra slutsatser mycket bättre än tidigare multimodala modeller, och ståtar med toppmoderna funktioner inom nästan alla områden.

Geminis extraordinära multimodala möjligheter hjälper dig att förstå komplex textuell och visuell information. De är särskilt användbara när det gäller att extrahera specifik information från enorma datamängder. Den extraordinära förmågan hos denna modell att extrahera essensen av information från hundratusentals dokument genom att läsa, filtrera och analysera dem kommer utan tvekan att bidra till nya, blixtsnabba upptäckter inom olika områden från vetenskap till finans."

Under presentationen visades ett exempel på en komplex studie, som innehåller mer än 200 tusen poster, av vilka några måste uppdateras enligt nya data. Som du kanske har gissat skulle det vara mycket tidskrävande att göra detta manuellt, så studieförfattarna använde Gemini för att förbereda kod som tog indata och gjorde de nödvändiga uppdateringarna. Ett annat, mer verkligt exempel är att använda Googles språkmodell för att förklara matematik- eller fysikproblem.

Indata här var ett foto/skanning av en uppgift från en skollektion. Systemet kunde bearbeta grafiken och texten som lagrades där och sedan indikera vilka delar av läxan som gjordes korrekt och vilka som behövde mer uppmärksamhet. Presentationen visade att en användare upprepade gånger kan be Gemini att förklara en uppgift, och varje efterföljande försök måste förklaras på ett enklare språk. Hur noggrann och korrekt Tvillingarna kommer att bli kontrolleras förstås av intresserade, men möjligheten att läsa och bearbeta text direkt från bilder är imponerande. Som tillagt under presentationen:

"Tvillingarna har lärt sig att känna igen och förstå text, bilder, ljud och mer på samma gång. Tack vare detta förstår han bättre informationens nyanser och kan svara på komplexa frågor. Det är särskilt effektivt för att förklara ämnen relaterade till matematik och fysik, så det kan fungera som en personlig läxhjälpare".

Tvillingarna i Google Pixel-smarttelefoner

Google skröt också om att Gemini "lärde sig" på de nya TPUv5-kretsuppsättningarna och planerar att introducera Gemini Ultra i början av 2024, som kommer att använda Bard Advanced, en ny version av konsumentversionen av jättens talmodell. Gemini Ultra testas för närvarande och är redan tillgänglig för utvalda säkerhetsexperter.

Den sista viktiga informationen är introduktionen av Gemini i Google Pixel 8-smarttelefonerna. Detta gör det bland annat möjligt att skapa snabba svar via Gboard-applikationen i meddelanden. Den första är WhatsApp, men nästa år kommer sådana lösningar att dyka upp i andra applikationer relaterade till kommunikation. Detta är dock bara början, eftersom Google har tillkännagett många nya AI-verktyg för Pixel 8-smarttelefonerna, och de kommer att finnas tillgängliga på vissa andra enheter i framtiden. Android. Detta är dock ytterligare planer och inga detaljer har lämnats i nuläget.

Hur skiljer sig Gemini från andra AI-modeller, som GPT-4?

Googles nya Gemini-modell ser ut att vara en av de största och mest avancerade AI-modellerna hittills, även om lanseringen av Ultra-modellen kommer att avgöra det med säkerhet. Jämfört med andra populära modeller som för närvarande använder AI-chatbots, sticker Gemini ut med sin egen multimodala funktion, medan andra modeller som GPT-4 förlitar sig på plugins och integration för att vara verkligt multimodala.

Oro för noggrannhet och opartiskhet

Även om Gemini är ett stort steg framåt i utvecklingen av artificiell intelligens, har den samma brister som andra stora språkmodeller. Först och främst är detta möjligheten att skapa falsk information. Fördomar baseras också på träningsdata som är tillgängliga för den nya språkmodellen. Det är också värt att nämna den begränsade förståelsen av den verkliga världen. Google medger att den nya Gemini-modellen kan göra misstag, tillhandahålla fakta som inte är baserad på bevis och motsäga sunt förnuft.

Fler tester behövs, särskilt för Gemini Ultra, som har nya funktioner som ännu inte har utforskats fullt ut. Google är fast beslutet att noggrant utvärdera Gemini för att minimera potentiell skada.

Också intressant: Allt om Microsoft Copilot: framtiden eller på fel sätt?

Framtiden är med Tvillingarna

Lanseringen av Gemini av Google inledde en ny era av AI-utveckling. Med sin bästa prestanda jämfört med tidigare modeller och mänskliga baslinjer pekar Gemini på framtida möjligheter för artificiell intelligens, men behöver fortfarande mer forskning för att åtgärda vissa brister.

I framtiden kan du förvänta dig att Gemini kommer att tillhandahålla mer användbara och intelligenta funktioner i Googles produkter. Framöver planerar företaget att fortsätta att expandera Gemini bortom engelska och bygga på sin kärnmodellmetodik.

Vi kan bara se och hoppas att Google vet vad det gör.

Läs också:

Mer från författaren

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Vad är Gemini: Allt om Googles nya AI-modell