Root NationArtikelTechnologienWas ist Gemini: Alles über Googles neues KI-Modell

Was ist Gemini: Alles über Googles neues KI-Modell

-

Google hat gerade sein leistungsstärkstes KI-Modell aller Zeiten veröffentlicht Gemini. Was ist sie und was kann sie tun? Über alles in unserem Artikel.

Google entwickelt seit Jahren eigene KI-Tools. Mit der Veröffentlichung von ChatGPT-3 von OpenAI hat das Unternehmen, das die weltweit beliebteste Suchmaschine betreibt, auch ein ähnliches Tool entwickelt: Bard. Aber dieses Tool verlor immer noch an die Konkurrenz, was Google nicht zulassen konnte. Daher ist es nicht verwunderlich, dass die Welt kürzlich Gemini sah, ein neues Sprachmodell von Google, von dem wir während der Präsentation erfahren haben.

Es soll nicht nur das bisherige LLM (Large Language Model) des Giganten verbessern, sondern auch völlig neue Möglichkeiten im Bereich Textverarbeitung, Grafik und Sound bieten.

Werfen wir also einen genaueren Blick auf das neue Google Gemini-Sprachmodell.

Auch interessant: OpenAI-Projekt F*: Was es ist und warum das Projekt Anlass zur Sorge gibt

Was ist Google Gemini?

Hierbei handelt es sich um ein neues und leistungsstarkes Modell der künstlichen Intelligenz von Google, das nicht nur Texte, sondern auch Bilder, Videos und Audio verstehen kann. Es wird beschrieben, dass dieses multimodale Modell in der Lage ist, komplexe Aufgaben in Mathematik, Physik und anderen Bereichen auszuführen sowie hochwertigen Code in einer Vielzahl von Programmiersprachen zu verstehen und zu generieren.

Google Gemini

Gemini ist derzeit durch die Integration mit Google Bard und Google Pixel 8 verfügbar und wird nach und nach in andere Google-Dienste integriert.

„Gemini ist das Ergebnis einer massiven gemeinsamen Anstrengung aller Google-Teams, einschließlich unserer Kollegen bei Google Research“, – sagte Dennis Hassabis, CEO und Mitbegründer von Google DeepMind. „Es wurde von Grund auf multimodal konzipiert, was bedeutet, dass es verschiedene Arten von Informationen, einschließlich Text, Code, Audio, Bilder und Video, verallgemeinern und nahtlos verstehen, verarbeiten und kombinieren kann.“

- Werbung -

Auch interessant: Nicht alles, was wir KI nennen, ist tatsächlich künstliche Intelligenz. Hier ist, was Sie wissen müssen

Wer hat das Modell erstellt?

Google Gemini

Wie Sie wahrscheinlich bereits vermutet haben, wurde Gemini von Google und Alphabet, der Muttergesellschaft von Google, entwickelt und ist das bislang fortschrittlichste KI-Modell des Unternehmens. Auch die DeepMind-Abteilung von Google leistete einen wesentlichen Beitrag zu seiner Entwicklung. Es ist noch nicht bekannt, wie viele Mitarbeiter an der Entwicklung beteiligt waren und welche Mittel dafür bereitgestellt wurden, aber wenn wir die Fähigkeiten von Google kennen, können wir sicher sein, dass es sich um einen sehr großen Betrag handelt.

Auch interessant: Windows 12: Was wird das neue Betriebssystem sein?

Gelegenheiten

Wie ich oben erwähnt habe, handelt es sich um ein multimodales Modell, das heißt, es kann verschiedene Arten von Daten verstehen, verarbeiten und kombinieren, darunter Text, Code, Audio, Bilder und Video. Im Vergleich zu früheren KI-Systemen bietet es bessere Verständnis-, Denk- und Programmierfähigkeiten.

Google Gemini

Die Hauptfunktionen des Modells sind:

  • Verarbeitung natürlicher Sprache für Aufgaben wie Übersetzung, Zusammenfassung und Dialog
  • Mathematisches Denken und Problemlösen
  • Fähigkeit, Code und Dokumentation zu generieren
  • Bilder, Audio und Video verstehen
  • Multitasking in verschiedenen Domänen

Wie Sie sehen, sind die Fähigkeiten anderen Modellen überlegen.

Bei Tests zum Sprachverständnis, zum mathematischen Denken und zum Codieren übertraf der Gemini Ultra Modelle wie den GPT-4. Insbesondere ist es das erste Modell, das beim Massive Multitask Language Understanding (MMLU)-Test die menschliche Leistung übertrifft und eine Genauigkeit von über 90 % erreicht.

In 32 akademischen Tests einer großen Sprachmodellstudie übertraf Gemini GPT-4. In 30 Fällen war das neue Sprachmodell von Google besser als die Konkurrenz. Dies zeigt die Fähigkeit des Modells, die Sprache vollständig zu verstehen.

Lesen Sie auch: Human Brain Project: Ein Versuch, das menschliche Gehirn nachzuahmen

Gibt es verschiedene Versionen?

Google beschreibt diese KI als flexibles Modell, das auf jedem Gerät funktionieren kann: von Google-Rechenzentren bis hin zu mobilen Geräten. Um diese Skalierbarkeit zu erreichen, gibt es Gemini in drei Versionen: Nano, Pro und Ultra.

Google Gemini

Lassen Sie uns ausführlicher über die verschiedenen Versionen von Gemini sprechen.

  • Zwillinge Nano: Entwickelt, um auf Smartphones zu funktionieren, insbesondere auf dem Google Pixel 8. Es ist darauf ausgelegt, Aufgaben auszuführen, die eine effiziente Verarbeitung durch künstliche Intelligenz erfordern, ohne eine Verbindung zu externen Servern herzustellen, beispielsweise das Vorschlagen von Antworten in Chat-Programmen oder das Zusammenfassen von Texten. Dieses kompakte Gerätemodell verfügt über etwa 6 Milliarden Parameter.
  • Zwillinge Pro: läuft in Google-Rechenzentren. Pro ist für die Verwendung mit der neuesten Version des Bard AI-Chatbots konzipiert. Es ist in der Lage, schnelle Reaktionszeiten zu bieten und komplexe Anfragen zu verstehen. Ein mittelgroßes Modell verfügt über etwa 100 Milliarden Parameter und ist der Kern der Konversations-KI von Bard. Pro wird über Google Cloud verfügbar sein.
  • Zwillinge Ultra: Obwohl die Ultra-Version noch nicht allgemein verfügbar ist, beschreibt Google sie als das leistungsstärkste Modell, das „den aktuellen Stand der Technik bei 30 von 32 weit verbreiteten akademischen Tests übertrifft, die in der Forschung zu großen Sprachmodellen (LLM) verwendet werden“. " Als größte und leistungsstärkste Version wird Ultra mehr als 1 Billion Parameter erhalten. Es wird in Rechenzentren untergebracht sein. Ultra ist für den Unternehmensgebrauch geeignet. Die Version ist für die Ausführung sehr komplexer Aufgaben konzipiert. Google plant, es nach dem Ende der aktuellen Testphase zu veröffentlichen. Das heißt, die leistungsstärkste Version steht den Benutzern noch nicht zur Verfügung.

Auch interessant: Google Bard AI: Alles, was Sie wissen müssen

- Werbung -

Wie greife ich auf Gemini zu?

KI in Nano- und Pro-Versionen ist jetzt in Google-Produkten wie den Google Pixel 8-Smartphones bzw. dem Bard-Chatbot verfügbar. Google plant, es irgendwann in seine Suchmaschine, Werbung, den E-Mail-Dienst Gmail, den Chrome-Browser und andere Dienste zu integrieren.

Entwickler und Unternehmenskunden können ab dem 13. Dezember 2023 über die Gemini API in Google AI Studio und Google Cloud Vertex AI auf Pro zugreifen. Entwickler Android wird über AICore Zugriff auf das Nano-Versionsmodell haben, das in einer frühen Vorschau verfügbar sein wird.

Lesen Sie auch: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Kampf der beiden Yokozuns

Zwillinge bei Google Bard: Was wird sich ändern?

Den während der Präsentation bereitgestellten Informationen zufolge wird das Modell es Google Bard ermöglichen, komplexere Probleme besser zu bewältigen, wie es heißt:

„Wir haben Gemini so konzipiert, dass das Modell von Natur aus multimodal ist und von Anfang an auf mehrere Modalitäten vortrainiert ist. Anschließend haben wir es verfeinert, indem wir weitere multimodale Daten hinzugefügt haben, um die Leistung zu verbessern. Dadurch versteht und folgert Gemini viel besser als frühere multimodale Modelle und verfügt in fast allen Bereichen über modernste Fähigkeiten.

Die außergewöhnlichen multimodalen Fähigkeiten von Gemini helfen Ihnen, komplexe Text- und Bildinformationen zu verstehen. Sie sind besonders nützlich, wenn es darum geht, spezifische Informationen aus großen Datenmengen zu extrahieren. Die außergewöhnliche Fähigkeit dieses Modells, durch Lesen, Filtern und Analysieren das Wesentliche an Informationen aus Hunderttausenden Dokumenten zu extrahieren, wird zweifellos zu neuen, blitzschnellen Entdeckungen in verschiedenen Bereichen von der Wissenschaft bis zum Finanzwesen beitragen.“

Während der Präsentation wurde ein Beispiel einer komplexen Studie gezeigt, die mehr als 200 Datensätze enthält, von denen einige aufgrund neuer Daten aktualisiert werden mussten. Wie Sie vielleicht vermutet haben, wäre die manuelle Durchführung sehr zeitaufwändig. Daher verwendeten die Autoren der Studie Gemini, um Code vorzubereiten, der die Eingaben aufnahm und die erforderlichen Aktualisierungen vornahm. Ein weiteres, realeres Beispiel ist die Verwendung des Sprachmodells von Google zur Erklärung mathematischer oder physikalischer Probleme.

Google Gemini

Als Eingabedaten diente hier ein Foto/Scan einer Aufgabe aus einer Schulstunde. Das System war in der Lage, die dort gespeicherten Grafiken und Texte zu verarbeiten und dann anzuzeigen, welche Teile der Hausaufgaben richtig erledigt wurden und welche mehr Aufmerksamkeit erforderten. Die Präsentation zeigte, dass ein Benutzer Gemini wiederholt bitten kann, eine Aufgabe zu erklären, und dass jeder weitere Versuch in einer einfacheren Sprache erklärt werden muss. Wie genau und korrekt Gemini sein wird, werden natürlich Interessierte prüfen, aber die Fähigkeit, Texte direkt aus Fotos zu lesen und zu verarbeiten, ist beeindruckend. Wie während der Präsentation hinzugefügt:

"Zwillingen wurde beigebracht, Texte, Bilder, Töne und mehr gleichzeitig zu erkennen und zu verstehen. Dadurch versteht er die Nuancen von Informationen besser und kann komplexe Fragen beantworten. Es eignet sich besonders gut zur Erklärung mathematisch-physikalischer Themen und kann daher als persönlicher Hausaufgabenhelfer dienen".

Zwillinge in Google Pixel-Smartphones

Google prahlte auch damit, dass Gemini von den neuen TPUv5-Chipsätzen „gelernt“ habe und plant, Anfang 2024 Gemini Ultra einzuführen, das Bard Advanced verwenden wird, eine neue Version der Verbraucherversion des Sprachmodells des Riesen. Gemini Ultra befindet sich derzeit in der Testphase und steht ausgewählten Sicherheitsexperten bereits zur Verfügung.

Google Gemini

Die letzte wichtige Information ist die Einführung von Gemini in den Google Pixel 8-Smartphones. Dadurch können unter anderem schnelle Antworten über die Gboard-Anwendung in Messengern erstellt werden. Das erste ist WhatsApp, aber nächstes Jahr werden solche Lösungen in anderen Anwendungen im Zusammenhang mit der Kommunikation erscheinen. Dies ist jedoch nur der Anfang, denn Google hat viele neue KI-Tools für die Pixel-8-Smartphones angekündigt und diese werden in Zukunft auch auf einigen anderen Geräten verfügbar sein. Android. Allerdings handelt es sich dabei um weitere Pläne, zu denen zum jetzigen Zeitpunkt noch keine Einzelheiten bekannt gegeben wurden.

Wie unterscheidet sich Gemini von anderen KI-Modellen wie GPT-4?

Googles neues Gemini-Modell scheint eines der bisher größten und fortschrittlichsten KI-Modelle zu sein, obwohl die Veröffentlichung des Ultra-Modells dies mit Sicherheit bestimmen wird. Im Vergleich zu anderen beliebten Modellen, die derzeit KI-Chatbots verwenden, zeichnet sich Gemini durch seine eigene multimodale Funktion aus, während andere Modelle wie GPT-4 auf Plugins und Integration angewiesen sind, um wirklich multimodal zu sein.

Bedenken hinsichtlich Genauigkeit und Unparteilichkeit

Obwohl Gemini einen großen Fortschritt in der Entwicklung der Fähigkeiten der künstlichen Intelligenz darstellt, weist es die gleichen Mängel auf wie andere große Sprachmodelle. Erstens besteht hier die Möglichkeit, falsche Informationen zu erzeugen. Verzerrungen basieren auch auf den Trainingsdaten, die für das neue Sprachmodell verfügbar sind. Erwähnenswert ist auch das begrenzte Verständnis der realen Welt. Google räumt ein, dass das neue Gemini-Modell Fehler machen und Fakten liefern kann, die nicht auf Beweisen basieren und dem gesunden Menschenverstand widersprechen.

Google Gemini

Weitere Tests sind erforderlich, insbesondere für Gemini Ultra, das über neue Funktionen verfügt, die noch nicht vollständig erforscht sind. Google ist bestrebt, Gemini sorgfältig zu prüfen, um potenzielle Schäden zu minimieren.

Auch interessant: Alles über Microsoft Copilot: die Zukunft oder der falsche Weg?

Die Zukunft gehört den Zwillingen

Die Einführung von Gemini durch Google läutete eine neue Ära der KI-Entwicklung ein. Mit seiner besten Leistung im Vergleich zu früheren Modellen und menschlichen Basislinien weist Gemini auf die zukünftigen Möglichkeiten der künstlichen Intelligenz hin, bedarf jedoch noch weiterer Forschung, um bestimmte Mängel zu beheben.

Sie können davon ausgehen, dass Gemini in Zukunft weitere nützliche und intelligente Funktionen in Google-Produkten bereitstellen wird. Für die Zukunft plant das Unternehmen, Gemini über die englische Sprache hinaus weiter auszubauen und auf seiner Kernmodellmethodik aufzubauen.

Wir können nur zusehen und hoffen, dass Google weiß, was es tut.

Lesen Sie auch: 

Yuri Svitlyk
Yuri Svitlyk
Sohn der Karpaten, unbekanntes Genie der Mathematik, „Anwalt“Microsoft, praktischer Altruist, links-rechts
- Werbung -
Anmelden
Benachrichtigen Sie über
Gast

0 Ihre Nachricht
Eingebettete Bewertungen
Alle Kommentare anzeigen