Google se enfrenta a OpenAI con el lanzamiento del modelo Gemini
Gemini es la PRIMERA IA multimodal que supera a los expertos humanos en el MMLU, con una puntuación superior al 90%.
Google lanzó su esperado modelo de IA Gemini, un movimiento que, según la compañía, le sitúa al frente de una carrera dominada durante mucho tiempo por OpenAI, el fabricante de ChatGPT.
Es el intento de Google de recuperar el liderazgo que cedió después de que sus investigadores hicieran en 2017 el avance que permitió la existencia de ChatGPT. Google dijo que Gemini está por delante de todos los demás modelos de IA en 30 de los 32 puntos de referencia estándar de la industria, la mayoría de los cuales fueron liderados por GPT-4, el más avanzado desarrollado por OpenAI.
Para construir Gemini, la unidad de Google de Alphabet reunió recursos y talento de todos los rincones de la empresa de 190.000 empleados, recurriendo a DeepMind, la startup que adquirió en 2014 para desarrollar inteligencia artificial general, así como a equipos encargados de ampliar los límites de la computación en nube y la infraestructura.
“Esta nueva era de modelos representa uno de los mayores esfuerzos de ciencia e ingeniería que hemos llevado a cabo como empresa”, dijo Sundar Pichai, consejero delegado de Alphabet y Google, en un comunicado.
Los consumidores podrán probar una versión reducida de Gemini a partir del miércoles, cuando se incorpore a Bard, el chatbot de la compañía. La versión más avanzada de Gemini todavía está siendo sometida a pruebas para garantizar que sea segura para los clientes, dijo la compañía.
Con el tiempo, Gemini se irá filtrando en la mayoría de los productos de Google, incluido el motor de búsqueda generativo y experimental de la empresa, que podría ser el futuro del negocio principal de la compañía.
La empresa está compitiendo con Microsoft para aumentar su gama de productos, desde documentos a hojas de cálculo y correo electrónico, con la nueva tecnología, que permitirá a los usuarios conversar con sus ordenadores tanto como pulsan y teclean.
La diferencia más notable entre Gemini y sus competidores es que es “multimodal”, lo que significa que se entrenó con una mezcla de texto, audio y vídeo. Otros grandes modelos lingüísticos también tienen capacidades multimodales, pero lo hacen combinando varios modelos, cada uno con una única modalidad.
Google afirma que el enfoque multimodal “nativo” proporciona a Gemini una mayor capacidad de razonamiento en su análisis de imágenes.
En un ejemplo compartido, Google mostró a Gemini observando las manos de una persona mientras realizaba un truco de magia con una moneda de 25 centavos. El modelo intenta primero adivinar en qué mano está la moneda y, cuando se equivoca, se da cuenta de que le han engañado. “La moneda está en la mano izquierda, utilizando una técnica de prestidigitación para que parezca que la moneda ha desaparecido”, explica Gemini.
En otra, se le muestran varios diseños de aviones de papel de la celebridad de YouTube y antiguo ingeniero de la NASA Mark Rober, que le pide que determine cuál volará con más eficacia. Gemini determina correctamente el mejor diseño.
También fue capaz de ver un vídeo de una persona vestida de forma normal imitando los movimientos corporales de Keanu Reeves en Matrix mientras su personaje, Neo, esquiva las balas. Gemini adivinó correctamente que la persona estaba representando una escena de la película. Eli Collins, vicepresidente de producto de DeepMind, explica que el modelo aprendió la escena a partir de “datos protegidos por derechos de autor” encontrados en la web.
Los investigadores de Google señalaron que había dudas sobre si el enfoque multimodal podría funcionar tan bien o mejor que los modelos centrados únicamente en una modalidad específica, una especie de debate entre especialista y generalista.
Sin embargo, el modelo generalista se impuso. “Gemini establece un nuevo estado de la técnica en una amplia gama de pruebas de texto, imagen, audio y vídeo”, escriben en un artículo publicado el miércoles.
Según Google, Gemini también supera a todos los demás grandes modelos lingüísticos en capacidad matemática básica y puede comprender la física.
La empresa se negó a revelar el tamaño del modelo Gemini, dando cifras sólo para la versión más pequeña, llamada Gemini Nano, que puede funcionar en los teléfonos inteligentes Google Pixel. Pero la compañía dijo que aprovechó las nuevas capacidades de cómputo que utilizan la última versión de los chips personalizados de Google, conocidos como Unidades de Procesamiento Tensorial.
Esto es notable porque otros grandes modelos lingüísticos líderes, como GPT-4 de OpenAI y Claude de Anthropic, se entrenaron utilizando procesadores gráficos Nvidia, que escasean y son caros de operar.
Google afirma que Gemini está diseñado para funcionar de forma más eficiente con sus procesadores, pero no ha querido dar cifras concretas.
Los tres modelos de Gemini -Nano, Pro y Ultra- estarán disponibles para clientes empresariales, que podrán aprovechar sus capacidades y ofrecerlas a sus propios clientes.
Los detalles:
- Gemini está disponible en tres tamaños: Ultra para tareas complejas, Pro para escalar una amplia gama de tareas y Nano para tareas eficientes en el dispositivo.
- El rendimiento de Gemini Ultra supera los resultados más avanzados en 30 de las 32 pruebas de referencia utilizadas en la investigación y el desarrollo de LLM.
- Con una puntuación del 90%, Gemini Ultra es el PRIMER modelo de IA que supera a los expertos humanos en la prueba de referencia MMLU.
- Gemini cuenta con capacidades de última generación, como razonamiento sofisticado, multimodalidad y codificación avanzada.
- Google también ha anunciado Cloud TPU v5p, su sistema TPU más potente hasta la fecha, con el que funciona Gemini.
- Gemini Pro estará presente en los productos de Google (Gmail, YouTube, Docs, etc.) a través de Bard a partir de hoy.
- Bard ya está disponible en inglés en más de 170 países.
- Gemini Ultra se lanzará a principios del año que viene.
- Gemini también estará disponible directamente en el dispositivo Pixel 8, mediante Gemini Nano.