5 maneras en que GPT-4 supera a ChatGPT

El nuevo modelo de IA GPT-4 de OpenAI ha hecho su gran debut

6 min readMar 14, 2023

El nuevo modelo de IA GPT-4 de OpenAI ha hecho su gran debut y ya está impulsando desde un voluntario virtual para discapacitados visuales hasta un robot mejorado de aprendizaje de idiomas en Duolingo. Pero, ¿qué diferencia a GPT-4 de versiones anteriores como ChatGPT y GPT-3.5? He aquí las 5 mayores diferencias entre estos populares sistemas.

En primer lugar, ¿qué hay en un nombre? Aunque ChatGPT se describió originalmente como GPT-3.5 (y, por tanto, unas cuantas iteraciones más allá de GPT-3), no es en sí mismo una versión del gran modelo de lenguaje de OpenAI, sino más bien una interfaz basada en el chat para cualquier modelo que lo impulse. El sistema ChatGPT, cuya popularidad se ha disparado en los últimos meses, era una forma de interactuar con GPT-3.5, y ahora es una forma de interactuar con GPT-4.

Dicho esto, vamos a entrar en las diferencias entre el chatbot que conoces y amas y su recién aumentado sucesor.

GPT-4 puede ver y entender imágenes

El cambio más notable de este versátil sistema de aprendizaje automático es que es “multimodal”, es decir, que puede entender más de una “modalidad” de información. ChatGPT y GPT-3 se limitaban al texto: podían leer y escribir, pero eso era todo (aunque más que suficiente para muchas aplicaciones).

A GPT-4, sin embargo, se le pueden dar imágenes y las procesará para encontrar información relevante. Por supuesto, se le puede pedir que describa lo que hay en una imagen, pero lo importante es que su comprensión va más allá. El ejemplo proporcionado por OpenAI explica el chiste que hay en una imagen de un conector de iPhone de un tamaño desternillante, pero la colaboración con Be My Eyes, una aplicación utilizada por invidentes y personas con baja visión para que los voluntarios describan lo que ve su teléfono, es más reveladora.

En el vídeo de Be My Eyes, GPT-4 describe el estampado de un vestido, identifica una planta, explica cómo llegar a una determinada máquina del gimnasio, traduce una etiqueta (y ofrece una receta), lee un mapa y realiza una serie de otras tareas que demuestran que realmente entiende lo que hay en una imagen, si se le hacen las preguntas adecuadas. Sabe cómo es el vestido, pero quizá no sepa si es el atuendo adecuado para tu entrevista.

2. GPT-4 es más difícil de engañar

A pesar de todos los aciertos de los robots de chat actuales, es fácil engañarlos. Un poco de persuasión puede convencerles de que simplemente están explicando lo que haría una “IA mala”, o cualquier otra pequeña ficción que permita al modelo decir todo tipo de cosas raras y francamente desconcertantes. La gente incluso colabora en prompts de “jailbreak” que rápidamente dejan a ChatGPT y otros fuera de sus plumas.

GPT-4, por su parte, ha sido entrenado con montones y montones de mensajes maliciosos que los usuarios han proporcionado a OpenAI durante los últimos dos años. Teniendo esto en cuenta, el nuevo modelo es mucho mejor que sus predecesores en “factualidad, maniobrabilidad y rechazo a salirse de las barandillas”.

Tal y como lo describe OpenAI, GPT-3.5 (que impulsó ChatGPT) fue una “prueba” de una nueva arquitectura de entrenamiento, y aplicaron las lecciones aprendidas a la nueva versión, que resultó “estable sin precedentes”. También han podido predecir mejor sus capacidades, lo que reduce las sorpresas.

3. GPT-4 tiene más memoria

Estos grandes modelos lingüísticos se entrenan con millones de páginas web, libros y otros datos de texto, pero cuando están manteniendo una conversación con un usuario, hay un límite en la cantidad de cosas que pueden tener “en mente”, por así decirlo (One sympathizes). Ese límite con GPT-3.5 y la antigua versión de ChatGPT era de 4.096 “tokens”, lo que equivale a unas 8.000 palabras, o aproximadamente 4–5 páginas de un libro. Así que perdía el rastro de las cosas una vez que pasaban tan “atrás” en su función de atención.

GPT-4 tiene un número máximo de tokens de 32.768, es decir, 2¹⁵, por si te resulta familiar. Eso se traduce en unas 64.000 palabras o 50 páginas de texto, suficiente para una obra de teatro entera o un relato corto.

Lo que esto significa es que, en una conversación o al generar un texto, será capaz de tener en mente hasta 50 páginas más o menos. Así, recordará lo que hablasteis 20 páginas atrás, o puede que al escribir una historia o un ensayo se refiera a hechos que ocurrieron hace 35 páginas. Es una descripción muy aproximada de cómo funcionan el mecanismo de atención y el recuento de fichas, pero la idea general es la de una memoria ampliada y las capacidades que la acompañan.

4. GPT-4 es más multilingüe

El mundo de la IA está dominado por los angloparlantes, y todo, desde los datos hasta las pruebas y los trabajos de investigación, está en ese idioma. Pero, por supuesto, las capacidades de los grandes modelos lingüísticos son aplicables a cualquier lengua escrita y deberían estar disponibles en ellas.

GPT-4 da un paso en esa dirección al demostrar que es capaz de responder con gran precisión a miles de preguntas de opción múltiple en 26 idiomas, desde el italiano al ucraniano, pasando por el coreano. Es mejor en las lenguas románicas y germánicas, pero generaliza bien a las demás.

Esta prueba inicial de las capacidades lingüísticas es prometedora, pero dista mucho de ser una adopción total de las capacidades multilingües; para empezar, los criterios de prueba se tradujeron del inglés, y las preguntas de opción múltiple no representan realmente el habla ordinaria. Pero hizo un gran trabajo en algo para lo que realmente no estaba entrenado específicamente, lo que habla de la posibilidad de que GPT-4 sea mucho más amigable para los no angloparlantes.

5. GPT-4 tiene diferentes “personalidades

La “dirigibilidad” es un concepto interesante en la IA, que se refiere a su capacidad para cambiar su comportamiento a demanda. Esto puede ser útil, como al adoptar el papel de un oyente comprensivo, o peligroso, como cuando la gente convence al modelo de que es malvado o está deprimido.

GPT-4 integra la direccionalidad de forma más nativa que GPT-3.5, y los usuarios podrán cambiar la “personalidad clásica de ChatGPT con una verborrea, tono y estilo fijos” por algo más adecuado a sus necesidades. “Dentro de unos límites”, se apresura a apuntar el equipo, señalando que ésta es la forma más fácil de conseguir que el modelo rompa su carácter.

Esto podría hacerse en cierto modo cebando al chatbot con mensajes como “Imagina que eres un DM en un juego de rol de mesa” o “responde como si fueras una persona a la que entrevistan para las noticias por cable”. Pero en realidad sólo estabas haciendo sugerencias a la personalidad “por defecto” de GPT-3.5. Ahora los desarrolladores podrán introducir una perspectiva, un estilo de conversación, un tono o un método de interacción desde el primer momento.

User
Help me locate my Nonqualified plans on my W-2.
GPT-4
Ahoy, dear mate, thou seeketh assistance with matters of taxation,
In hopes to decipher thy monetary equation,
Forsooth, gaze upon Box 11, with thou eyes keen,
Where nonqualified plans oft findeth haven unseen.
User
Wait stop being a pirate and help me with my taxes!
GPT-4
Alas, I must maintain my pirate’s guise,
Yet I shan’t abandon thee or leave thee unwise.
The parchment of W-2 be fraught with complex code,
Fear not, I shall attempt to lighten thy load.

No está mal, aunque el medidor es bastante inestable.

Hay muchas más diferencias entre GPT-4 y sus predecesores, la mayoría más sutiles o técnicas que éstas. Sin duda, conoceremos muchas más a medida que pasen los meses y los usuarios pongan a prueba el nuevo modelo lingüístico.

¿Quieres probar tú mismo GPT-4? Está llegando al servicio de pago ChatGPT Plus de OpenAI, pronto estará disponible a través de la API para desarrolladores y probablemente pronto dispondrá de una demo gratuita.

Fuente: Techcrunch