Qu'est-ce que Gemini : tout sur le nouveau modèle d'IA de Google

Google vient de publier son modèle d'IA le plus puissant jamais appelé GEMINI. Qu'est-ce qu'elle est et que peut-elle faire ? À propos de tout dans notre article.

Google développe ses propres outils d'IA depuis des années. Avec la sortie publique de ChatGPT-3 d'OpenAI, la société qui gère le moteur de recherche le plus populaire au monde a également créé un outil similaire, Bard. Mais cet outil a quand même perdu face à ses concurrents, ce que Google ne pouvait pas permettre. Il n'est donc pas surprenant que le monde ait récemment vu Gemini, un nouveau modèle de langage de Google, dont nous avons entendu parler lors de la présentation.

Il est conçu non seulement pour améliorer le précédent LLM (Large Language Model) du géant, mais aussi pour offrir des possibilités complètement nouvelles dans le domaine du traitement de texte, du graphisme et du son.

Examinons donc de plus près le nouveau modèle linguistique de Google Gemini.

Intéressant aussi : OpenAI Project Q* : qu'est-ce que c'est et pourquoi le projet est une préoccupation

CONTENU

1. Qu’est-ce que Google Gemini ?

2. Qui a créé le modèle ?

3. Opportunités

4. Existe-t-il différentes versions ?

5. Comment accéder aux Gémeaux ?

6. Gémeaux chez Google Bard : Qu'est-ce qui va changer ?

7. Gémeaux dans les smartphones Google Pixel

8. En quoi Gemini est-il différent des autres modèles d’IA, tels que GPT-4 ?

9. Préoccupations concernant l’exactitude et l’impartialité

10. L'avenir est avec les Gémeaux

Qu’est-ce que Google Gemini ?

Il s'agit d'un nouveau et puissant modèle d'intelligence artificielle de Google, capable de comprendre non seulement le texte, mais également les images, les vidéos et l'audio. Ce modèle multimodal est décrit comme étant capable d'effectuer des tâches complexes en mathématiques, en physique et dans d'autres domaines, ainsi que de comprendre et de générer du code de haute qualité dans une variété de langages de programmation.

Gemini est actuellement disponible via l'intégration avec Google Bard et Google Pixel 8 et sera progressivement inclus dans d'autres services Google.

"Gemini est le résultat d'un effort de collaboration massif entre les équipes de Google, y compris nos collègues de Google Research," — a déclaré Dennis Hassabis, PDG et co-fondateur de Google DeepMind. "Il a été conçu dès le départ pour être multimodal, ce qui signifie qu'il peut généraliser et comprendre, exploiter et combiner de manière transparente différents types d'informations, notamment le texte, le code, l'audio, les images et la vidéo."

- Publicité -

Intéressant aussi : Tout ce que nous appelons IA n'est pas en fait de l'intelligence artificielle. Voici ce que vous devez savoir

Qui a créé le modèle ?

Comme vous l'avez probablement déjà deviné, Gemini a été créé par Google et Alphabet, la société mère de Google, et constitue à ce jour le modèle d'IA le plus avancé de l'entreprise. La division DeepMind de Google a également largement contribué à son développement. On ne sait pas encore combien d'employés ont participé au développement et quels fonds ont été alloués à cet effet, mais connaissant les capacités de Google, nous pouvons être sûrs qu'il y en a un montant très important.

Intéressant aussi : Windows 12 : quel sera le nouvel OS

Opportunités

Comme je l'ai noté ci-dessus, il s'agit d'un modèle multimodal, ce qui signifie qu'il peut comprendre, exploiter et combiner différents types de données, notamment le texte, le code, l'audio, les images et la vidéo. Il offre de meilleures compétences de compréhension, de réflexion et de codage par rapport aux systèmes d’IA précédents.

Les principales capacités du modèle sont :

Traitement du langage naturel pour des tâches telles que la traduction, le résumé et le dialogue
Pensée mathématique et résolution de problèmes
Capacité à générer du code et de la documentation
Comprendre les images, l'audio et la vidéo
Multitâche dans différents domaines

Comme vous pouvez le constater, les capacités sont supérieures à celles des autres modèles.

Dans les tests de compréhension du langage, de pensée mathématique et de codage, le Gemini Ultra a surpassé les modèles tels que le GPT-4. En particulier, il s’agit du premier modèle à surpasser les performances humaines au test MMLU (Massive Multitask Language Understanding), atteignant une précision de plus de 90 %.

Dans 32 tests académiques d’une vaste étude de modèle de langage, Gemini a surpassé GPT-4. Dans 30 cas, le nouveau modèle linguistique de Google était meilleur que celui du concurrent. Cela démontre la capacité du modèle à comprendre pleinement le langage.

Lisez aussi: Human Brain Project : une tentative d’imiter le cerveau humain

Existe-t-il différentes versions ?

Google décrit cette IA comme un modèle flexible pouvant fonctionner sur n'importe quel appareil : des centres de données Google aux appareils mobiles. Pour atteindre cette évolutivité, Gemini est disponible en trois versions : Nano, Pro et Ultra.

Parlons plus en détail des différentes versions de Gemini.

Gémeaux Nano: conçu pour fonctionner sur les smartphones, notamment le Google Pixel 8. Il est conçu pour effectuer des tâches nécessitant un traitement efficace par l'intelligence artificielle sans connexion à des serveurs externes, comme suggérer des réponses dans des programmes de chat ou résumer du texte. Ce modèle d'appareil compact possède environ 6 milliards de paramètres.
Gemini Pro: fonctionne dans les centres de données Google. Pro est conçu pour fonctionner avec la dernière version du chatbot Bard AI. Il est capable de fournir des temps de réponse rapides et de comprendre des requêtes complexes. Un modèle de taille moyenne comporte environ 100 milliards de paramètres et constitue le cœur de l'IA conversationnelle de Bard. Pro sera disponible via Google Cloud.
Gémeaux Ultra: bien que la version Ultra ne soit pas encore largement disponible, Google la décrit comme son modèle le plus performant, dépassant « l'état de l'art actuel pour 30 des 32 tests académiques largement utilisés dans la recherche sur les grands modèles de langage (LLM). " En tant que version la plus grande et la plus puissante, Ultra recevra plus de 1 XNUMX milliards de paramètres. Il sera situé dans des centres de données. Ultra est adapté à un usage en entreprise. La version est conçue pour effectuer des tâches très complexes. Google prévoit de le publier après la fin de la phase de test en cours. Autrement dit, la version la plus puissante n'est pas encore disponible pour les utilisateurs.

Intéressant aussi : Google Bard AI : tout ce que vous devez savoir

- Publicité -

Comment accéder aux Gémeaux ?

L'IA en versions Nano et Pro est désormais disponible dans les produits Google tels que les smartphones Google Pixel 8 et le chatbot Bard, respectivement. Google prévoit de l'intégrer à terme dans son moteur de recherche, sa publicité, son service de messagerie Gmail, son navigateur Chrome et d'autres services.

Les développeurs et les entreprises clientes pourront accéder à Pro via l'API Gemini dans Google AI Studio et Google Cloud Vertex AI à partir du 13 décembre 2023. Développeurs Android aura accès au modèle de la version Nano via AICore, qui sera disponible en avant-première.

Lisez aussi: Samsung Galaxy Flip5 contre Motorola Razr 40 Ultra : Bataille des deux Yokozuns

Gémeaux chez Google Bard : Qu'est-ce qui va changer ?

Selon les informations fournies lors de la présentation, le modèle permettra à Google Bard de mieux gérer des problèmes plus complexes, comme indiqué :

« Nous avons conçu Gemini de manière à ce que le modèle soit naturellement multimodal et pré-entraîné sur plusieurs modalités dès le départ. Nous l'avons ensuite affiné en ajoutant davantage de données multimodales pour améliorer les performances. En conséquence, Gemini comprend et déduit facilement bien mieux que les modèles multimodaux précédents et dispose de capacités de pointe dans presque tous les domaines.

Les extraordinaires capacités multimodales de Gemini vous aident à comprendre des informations textuelles et visuelles complexes. Ils sont particulièrement utiles lorsqu’il s’agit d’extraire des informations spécifiques à partir d’énormes ensembles de données. L'extraordinaire capacité de ce modèle à extraire l'essence des informations de centaines de milliers de documents en les lisant, en les filtrant et en les analysant contribuera sans aucun doute à de nouvelles découvertes ultra-rapides dans divers domaines allant de la science à la finance.

Au cours de la présentation, un exemple d'étude complexe a été présenté, contenant plus de 200 XNUMX enregistrements, dont certains ont dû être mis à jour en fonction de nouvelles données. Comme vous l'avez peut-être deviné, faire cela manuellement prendrait beaucoup de temps, c'est pourquoi les auteurs de l'étude ont utilisé Gemini pour préparer le code qui prenait en compte les entrées et effectuait les mises à jour nécessaires. Un autre exemple, plus concret, consiste à utiliser le modèle linguistique de Google pour expliquer des problèmes de mathématiques ou de physique.

Les données d'entrée ici étaient une photo/scan d'un devoir d'une leçon scolaire. Le système était capable de traiter les graphiques et le texte qui y étaient stockés, puis d'indiquer quelles parties des devoirs avaient été faites correctement et lesquelles nécessitaient plus d'attention. La présentation a montré qu'un utilisateur peut demander à plusieurs reprises à Gemini d'expliquer une tâche, et que chaque tentative ultérieure doit être expliquée dans un langage plus simple. La précision et l'exactitude de Gemini seront bien sûr vérifiées par les personnes intéressées, mais la capacité de lire et de traiter du texte directement à partir de photos est impressionnante. Comme ajouté lors de la présentation :

"Les Gémeaux ont appris à reconnaître et à comprendre à la fois du texte, des images, des sons et bien plus encore. Grâce à cela, il comprend mieux les nuances des informations et peut répondre à des questions complexes. Il est particulièrement efficace pour expliquer des sujets liés aux mathématiques et à la physique, il peut donc servir d'aide personnelle aux devoirs." .

Gémeaux dans les smartphones Google Pixel

Google s'est également vanté que Gemini « avait appris » sur les nouveaux chipsets TPUv5, et prévoit d'introduire Gemini Ultra début 2024, qui utilisera Bard Advanced, une nouvelle version de la version grand public du modèle vocal du géant. Gemini Ultra est actuellement en test et est déjà disponible pour certains experts en sécurité.

La dernière information importante est l'introduction de Gemini dans les smartphones Google Pixel 8. Cela permettra, entre autres, de créer des réponses rapides via l'application Gboard dans les messageries. Le premier est WhatsApp, mais l’année prochaine, de telles solutions apparaîtront dans d’autres applications liées à la communication. Cependant, ce n'est qu'un début, car Google a annoncé de nombreux nouveaux outils d'IA pour les smartphones Pixel 8, et ils seront disponibles sur d'autres appareils à l'avenir. Android. Cependant, il s’agit d’autres projets et aucun détail n’a été fourni pour le moment.

En quoi Gemini est-il différent des autres modèles d’IA, tels que GPT-4 ?

Le nouveau modèle Gemini de Google semble être l'un des modèles d'IA les plus grands et les plus avancés à ce jour, bien que la sortie du modèle Ultra le détermine à coup sûr. Comparé à d'autres modèles populaires utilisant actuellement des chatbots IA, Gemini se distingue par sa propre fonctionnalité multimodale, tandis que d'autres modèles comme GPT-4 s'appuient sur des plugins et l'intégration pour être véritablement multimodaux.

Préoccupations concernant l’exactitude et l’impartialité

Bien que Gemini constitue une avancée majeure dans le développement des capacités de l’intelligence artificielle, il présente les mêmes défauts que les autres modèles linguistiques majeurs. Tout d’abord, il s’agit de la possibilité de créer de fausses informations. Les biais sont également basés sur les données de formation disponibles pour le nouveau modèle linguistique. Il convient également de mentionner la compréhension limitée du monde réel. Google admet que le nouveau modèle Gemini peut commettre des erreurs, fournir des faits qui ne sont pas fondés sur des preuves et contredire le bon sens.

D'autres tests sont nécessaires, notamment pour Gemini Ultra, qui possède de nouvelles capacités qui n'ont pas encore été pleinement explorées. Google s'engage à évaluer soigneusement Gemini afin de minimiser les dommages potentiels.

Intéressant aussi : Tout sur Microsoft Copilote : l’avenir ou la mauvaise voie ?

L'avenir est avec les Gémeaux

Le lancement de Gemini par Google a marqué le début d'une nouvelle ère de développement de l'IA. Avec ses meilleures performances par rapport aux modèles précédents et aux références humaines, Gemini souligne les possibilités futures de l’intelligence artificielle, mais nécessite encore des recherches supplémentaires pour combler certaines lacunes.

À l'avenir, vous pouvez vous attendre à ce que Gemini fournisse des fonctionnalités plus utiles et intelligentes dans les produits Google. À l’avenir, la société prévoit de continuer à étendre Gemini au-delà de l’anglais et à s’appuyer sur sa méthodologie de modèle de base.

Nous ne pouvons que regarder et espérer que Google sache ce qu'il fait.

Lisez aussi:

Plus de l'auteur

S'inscrire

0 Commentaires

Avis intégrés

Voir tous les commentaires

Autres articles