La compañía ha explicado que Gemini es el resultado de esfuerzos de colaboración a gran escala por parte de equipos de Google, incluida la plantilla de Google Research, y ha sido construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video. La primera versión, Gemini 1.0, está optimizada para diferentes tamaños: Ultra, Pro y Nano. Gemini Ultra es el modelo más grande y capaz para tareas altamente complejas; Gemini Pro es el mejor modelo para escalar en una amplia gama de tareas; y Gemini Nano es el más eficiente para tareas en el dispositivo.
Google ha detallado que, desde la comprensión de imágenes naturales, audio y video hasta el razonamiento matemático, el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM).
Gemini Ultra también logra una puntuación de vanguardia del 59,4 % en el nuevo punto de referencia MMMU, que consta de tareas multimodales que abarcan diferentes dominios que requieren un razonamiento deliberado. Además, «las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información visual y escrita compleja. Esto lo hace especialmente hábil para descubrir conocimientos que pueden ser difíciles de discernir en medio de grandes cantidades de datos», han indicado.
Gemini 1.0 ha sido capacitado para reconocer y comprender texto, imágenes, audio y más al mismo tiempo, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en materias complejas como matemáticas y física. Desde este miércoles, el chatbot de Google, Bard, utilizará Gemini Pro para ayudar con el razonamiento avanzado, la planificación, la comprensión y otras capacidades. A principios del próximo año, lanzará «Bard Advanced», que utilizará Gemini Ultra, y representa la mayor actualización de Bard, su chatbot similar a ChatGPT.
A partir del 13 de diciembre, los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI. Los desarrolladores de Android, por su parte, podrán crear con Gemini Nano a través de AICore, una nueva capacidad del sistema disponible en Android 14, a partir de los dispositivos Pixel 8 Pro.