¿Qué es Gemini ?: Todo sobre el nuevo modelo de IA de Google

Google acaba de lanzar su modelo de IA más potente hasta el momento, llamado Gemini . ¿Qué es ella y qué puede hacer? Sobre todo en nuestro artículo.

Google lleva años desarrollando sus propias herramientas de IA. Con el lanzamiento público de ChatGPT-3 de OpenAI, la empresa que gestiona el motor de búsqueda más popular del mundo también ha creado una herramienta similar, Bard. Pero esta herramienta aún perdió frente a los competidores, lo que Google no podía permitir. Por tanto, no es de extrañar que el mundo haya visto recientemente Gemini, un nuevo modelo de lenguaje de Google, del que conocimos durante la presentación.

Está diseñado no sólo para mejorar el anterior LLM (Large Language Model) del gigante, sino también para ofrecer posibilidades completamente nuevas en el campo del procesamiento de textos, gráficos y sonido.

Así que echemos un vistazo más de cerca al nuevo modelo de lenguaje Google Gemini.

TABLA DE CONTENIDO:

¿Qué es Google Géminis?

Se trata de un nuevo y potente modelo de inteligencia artificial de Google, que puede comprender no sólo texto, sino también imágenes, vídeos y audio. Este modelo multimodal se describe como capaz de realizar tareas complejas en matemáticas, física y otros dominios, así como comprender y generar código de alta calidad en una variedad de lenguajes de programación.

Gemini está actualmente disponible mediante integración con Google Bard y Google Pixel 8 y gradualmente se incluirá en otros servicios de Google.

«Gemini es el resultado de un enorme esfuerzo de colaboración entre los equipos de Google, incluidos nuestros colegas de Google Research», afirmó Dennis Hassabis, director ejecutivo y cofundador de Google DeepMind. «Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluidos texto, código, audio, imágenes y video».

¿Quién creó el modelo?

Como probablemente ya habrás adivinado, Gemini fue creado por Google y Alphabet, la empresa matriz de Google, y es el modelo de IA más avanzado de la compañía hasta la fecha. La división DeepMind de Google también contribuyó de manera significativa a su desarrollo. Aún no se sabe cuántos empleados participaron en el desarrollo y qué fondos se asignaron para ello, pero conociendo las capacidades de Google, podemos estar seguros de que es una cantidad muy grande.

Oportunidades

Como señalé anteriormente, es un modelo multimodal, lo que significa que puede comprender, operar y combinar diferentes tipos de datos, incluidos texto, código, audio, imágenes y video. Proporciona mejores habilidades de comprensión, pensamiento y codificación en comparación con los sistemas de IA anteriores.

Las principales capacidades del modelo son:

Procesamiento del lenguaje natural para tareas como traducción, resúmenes y diálogos.
Pensamiento matemático y resolución de problemas.
Capacidad para generar código y documentación.
Comprensión de imágenes, audio y vídeo.
Multitarea en diferentes dominios

Como puede ver, las capacidades son superiores a las de otros modelos.

En pruebas de comprensión del lenguaje, pensamiento matemático y codificación, Gemini Ultra superó a modelos como el GPT-4. En particular, es el primer modelo que supera el rendimiento a nivel humano en la prueba Massive Multitask Language Understanding (MMLU), logrando más del 90 % de precisión.

En 32 pruebas académicas de un gran estudio de modelo de lenguaje, Gemini superó a GPT-4. En 30 casos, el nuevo modelo lingüístico de Google fue mejor que el de la competencia. Esto demuestra la capacidad del modelo para comprender completamente el idioma.

¿Hay diferentes versiones?

Google describe esta IA como un modelo flexible que puede funcionar en cualquier dispositivo: desde los centros de datos de Google hasta dispositivos móviles. Para lograr esta escalabilidad, Gemini viene en tres versiones: Nano, Pro y Ultra.

Hablemos de las diferentes versiones de Gemini con más detalle.

Gemini Nano : Diseñado para funcionar en teléfonos inteligentes, incluido el Google Pixel 8. Está diseñado para realizar tareas que requieren un procesamiento eficiente de inteligencia artificial sin conectarse a servidores externos, como sugerir respuestas en programas de chat o resumir texto. Este modelo de dispositivo compacto tiene alrededor de 6 mil millones de parámetros.
Gemini Pro : se ejecuta en los centros de datos de Google. Pro está diseñado para funcionar con la última versión del chatbot Bard AI. Es capaz de proporcionar tiempos de respuesta rápidos y comprender consultas complejas. Un modelo de tamaño mediano tiene aproximadamente 100 mil millones de parámetros y es el núcleo de la IA conversacional de Bard. Pro estará disponible a través de Google Cloud.
Gemini Ultra : aunque la version Ultra aun no esta ampliamente disponible, Google lo describe como su modelo de mejor rendimiento, superando los «puntuaciones de ultima generacion en 30 de 32 pruebas academicas ampliamente utilizadas aplicadas al modelo de lenguaje grande (LLM) investigación.» Como versión más grande y potente, Ultra recibirá más de 1 billón de parámetros. Estará ubicado en centros de datos. Ultra está adaptado para uso corporativo. La versión está diseñada para realizar tareas muy complejas. Google planea lanzarlo una vez finalizada la fase de prueba actual. Es decir, la versión más potente aún no está disponible para los usuarios.

¿Cómo acceder a Géminis?

La IA en versiones Nano y Pro ahora está disponible en productos de Google, como los teléfonos inteligentes Google Pixel 8 y el chatbot Bard, respectivamente. Google planea integrarlo eventualmente en su motor de búsqueda, publicidad, servicio de correo electrónico Gmail, navegador Chrome y otros servicios.

Los desarrolladores y clientes empresariales podrán acceder a Pro a través de la API Gemini en Google AI Studio y Google Cloud Vertex AI a partir del 13 de diciembre de 2023. Los desarrolladores de Android tendrán acceso al modelo de la versión Nano a través de AICore, que estará disponible en una vista previa temprana.

Géminis en Google Bard: ¿Qué cambiará?

Según información proporcionada durante la presentación, el modelo permitirá a Google Bard manejar mejor problemas más complejos, como se afirma:

«Diseñamos Gemini de tal manera que el modelo sea naturalmente multimodal y esté previamente entrenado en múltiples modalidades desde el principio. Luego lo refinamos agregando más datos multimodales para mejorar el rendimiento. Esto hace que Gemini sea fácil de entender e inferir mucho mejor que el modelo anterior. modelos multimodales y cuenta con capacidades de última generación en casi todas las áreas.

Las extraordinarias capacidades multimodales de Gemini lo ayudan a comprender información visual y textual compleja. Son especialmente útiles cuando se trata de extraer información específica de grandes conjuntos de datos. La extraordinaria capacidad de este modelo para extraer la esencia de la información de cientos de miles de documentos leyéndolos, filtrándolos y analizándolos sin duda contribuirá a nuevos descubrimientos ultrarrápidos en diversos campos, desde la ciencia hasta las finanzas».

Durante la presentación se mostró un ejemplo de un estudio complejo, que contiene más de 200 mil registros, algunos de los cuales tuvieron que actualizarse con nuevos datos. Como habrás adivinado, hacer esto manualmente llevaría mucho tiempo, por lo que los autores del estudio utilizaron Gemini para preparar el código que tomó las entradas y realizó las actualizaciones necesarias. Otro ejemplo más real es el uso del modelo de lenguaje de Google para explicar problemas de matemáticas o física.

Los datos de entrada aquí fueron una fotografía/escaneo de una tarea de una lección escolar. El sistema pudo procesar los gráficos y el texto almacenados allí y luego indicar qué partes de la tarea se hicieron correctamente y cuáles necesitaban más atención. La presentación mostró que un usuario puede pedirle repetidamente a Gemini que le explique una tarea, y cada intento posterior debe explicarse en un lenguaje más sencillo. Por supuesto, los interesados comprobarán cuán preciso y correcto será Gemini, pero la capacidad de leer y procesar texto directamente a partir de fotografías es impresionante. Como se agregó durante la presentación:

» Géminis ha sido entrenado para reconocer y comprender textos, imágenes, sonidos y más al mismo tiempo. Gracias a esto, comprende mejor los matices de la información y puede responder preguntas complejas. Es especialmente eficaz para explicar temas relacionados con las matemáticas y la física. , por lo que puede servir como asesor personal mientras se hacen los deberes .»

Géminis en los teléfonos inteligentes Google Pixel

Google también se jactó de que Gemini estaba «aprendiendo» con los nuevos conjuntos de chips TPUv5 y planea presentar Gemini Ultra a principios de 2024, que utilizará Bard Advanced, una nueva versión de la versión para consumidores del modelo de voz del gigante. Gemini Ultra se encuentra actualmente en pruebas y ya está disponible para expertos en seguridad seleccionados.

El último dato importante es la introducción de Gemini en los smartphones Google Pixel 8. Esto permitirá, entre otras cosas, crear respuestas rápidas a través de la aplicación Gboard en Messenger. La primera es WhatsApp, pero el año que viene este tipo de soluciones aparecerán en otras aplicaciones relacionadas con la comunicación. Sin embargo, esto es sólo el comienzo, ya que Google ha anunciado muchas herramientas nuevas de inteligencia artificial para los teléfonos inteligentes Pixel 8 y estarán disponibles en algunos otros dispositivos Android en el futuro. Sin embargo, estos son planes adicionales y no se han proporcionado detalles en este momento.

¿En qué se diferencia Gemini de otros modelos de IA, como GPT-4?

El nuevo modelo Gemini de Google parece ser uno de los modelos de IA más grandes y avanzados hasta la fecha, aunque el lanzamiento del modelo Ultra lo determinará con seguridad. En comparación con otros modelos populares que actualmente utilizan chatbots de IA, Gemini se destaca por su propia función multimodal, mientras que otros modelos como GPT-4 dependen de complementos e integración para ser verdaderamente multimodal.

Preocupaciones sobre la precisión y la imparcialidad

Aunque Gemini supone un gran avance en el desarrollo de capacidades de inteligencia artificial, tiene las mismas deficiencias que otros modelos de lenguaje importantes. En primer lugar, existe la posibilidad de crear información falsa. Los sesgos también se basan en los datos de entrenamiento disponibles para el nuevo modelo lingüístico. También cabe mencionar la limitada comprensión del mundo real. Google admite que el nuevo modelo Gemini puede cometer errores, proporcionar hechos que no están basados en evidencia y contradecir el sentido común.

Se necesitan más pruebas, especialmente para Gemini Ultra, que tiene nuevas capacidades que aún no se han explorado por completo. Google se compromete a evaluar cuidadosamente Gemini para minimizar posibles daños.

El futuro está con Géminis

El lanzamiento de Gemini por parte de Google marcó el comienzo de una nueva era en el desarrollo de la IA. Con su mejor rendimiento en comparación con modelos anteriores y líneas de base humanas, Gemini apunta a las posibilidades futuras de la inteligencia artificial, pero aún necesita más investigación para abordar ciertas deficiencias.

En el futuro, puede esperar que Gemini proporcione funciones más útiles e inteligentes en los productos de Google. En el futuro, la compañía planea continuar expandiendo Gemini más allá del inglés y desarrollar su metodología de modelado central.

Sólo podemos mirar y esperar que Google sepa lo que está haciendo.

Aquí te dejamos una lista de noticias que de seguro vas a querer leer:

Más del autor

Subscribe

0 Comments

Newest

OldestMost Voted

Otros artículos