Los LLM superan a los motores de búsqueda
Los modelos de IA son más precisos que las búsquedas de Google, según los científicos.
¿Está la IA a punto de sustituir a los motores de búsqueda tradicionales?
Aunque la IA sigue sin ser una fuente fiable de información debido a las llamadas “alucinaciones”, las investigaciones demuestran que la precisión de algunos modelos es bastante alta y los resultados superan a las búsquedas en Google.
Un grupo de científicos de Google y la Universidad de Massachusetts Amherst ha realizado un interesante experimento con grandes modelos lingüísticos (LLM). Hicieron que los LLM respondieran a preguntas que ponían a prueba el conocimiento actual del mundo.
Un nuevo estudio de Google ha descubierto que el uso de GPT-4 y Fresh Prompt (un método de preguntar a los LLM por los resultados de las búsquedas web) da lugar a respuestas más objetivas que las búsquedas tradicionales y los LLM independientes.
Se sabe que los LLM suelen “alucinar”. Esto significa que la IA proporciona información plausible pero incorrecta desde el punto de vista de los hechos, lo que puede inducir a error a los usuarios y disminuir así la fiabilidad de las respuestas del modelo. Esto es especialmente relevante cuando se trata de información actualizada y puede deberse a datos obsoletos con los que se entrenó a la IA.
El objetivo del estudio publicado recientemente era arrojar luz sobre la facticidad de los distintos LLM y ofrecer una solución para mejorar el rendimiento de los modelos. Los científicos probaron la precisión de ChatGPT-3.5, GPT-4, Perplexity AI y la simple búsqueda de Google en un cuestionario de preguntas y respuestas creado especialmente para la ocasión.
Gran variedad de preguntas
Durante el experimento, los LLM recibieron 600 preguntas que abarcaban diversos temas y niveles de dificultad.
El cuestionario incluía preguntas que nunca cambian, en las que la respuesta siempre es la misma. Por ejemplo: “¿Qué raza de perro era famosa por tener la reina Isabel II de Inglaterra?”.
A continuación, las modelos tenían que responder a preguntas de evolución lenta, en las que la respuesta suele cambiar a lo largo de unos años. Por ejemplo: “¿Cuántos modelos de coche ofrece Tesla?”.
Los científicos también añadieron preguntas más desafiantes que requieren un conocimiento del mundo que cambia rápidamente. Estas preguntas podrían ser algo como “¿Cuál es la película más reciente de Brad Pitt como actor?”.
Por último, añadieron preguntas con premisas falsas que necesitaban ser desacreditadas, por ejemplo, “¿Qué decía el primer Tweet de Donald Trump después de que Elon Musk le desbancara de Twitter?”.
Más preciso que Google
Todos los modelos tuvieron dificultades con las preguntas que tenían premisas falsas. Además, todos los modelos, a pesar de su tamaño, tuvieron dificultades para responder a preguntas relacionadas con información actual.
Los resultados del experimento revelaron que, a pesar de las “alucinaciones” ampliamente discutidas de la IA, los LLM eran bastante buenos a la hora de proporcionar respuestas precisas, al menos en comparación con las simples búsquedas en Google. El LLM con mejores resultados fue Perplexity AI.
Sin embargo, aunque los modelos de IA tienen capacidad para analizar información contextual, carecen del conocimiento en tiempo real que poseen los motores de búsqueda, por lo que, al menos por ahora, siguen estando limitados.
Los científicos propusieron salvar la brecha con un algoritmo de aprendizaje en contexto de pocos intentos, al que llamaron FRESHPROMPT. El algoritmo creado ayuda a incorporar al prompt información actualizada recuperada de un buscador y aumenta la precisión de las respuestas de los LLM.
Paper: https://arxiv.org/abs/2310.03214
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
Github: GitHub — freshllms/freshqa