OpenAI presentó un nuevo conjunto de modelos de “razonamiento” de frontera llamados o3 y o3-mini.

OpenAI insinúa un nuevo modelo de razonamiento, pero no esperes probarlo pronto. La empresa anunció que está llevando a cabo pruebas de seguridad de su próximo modelo de frontera.

Ángel Leonardo Torres
2 min readDec 20, 2024

En el último día de “ship-mas,” OpenAI presentó un nuevo conjunto de modelos de “razonamiento” de frontera llamados o3 y o3-mini.

La empresa no lanzará estos modelos hoy (y admite que los resultados finales pueden evolucionar con más post-entrenamiento). Sin embargo, OpenAI está aceptando solicitudes de la comunidad investigadora para probar estos sistemas antes de su lanzamiento público (aún sin fecha definida). OpenAI lanzó o1 (cuyo nombre en código es Strawberry) en septiembre y ha decidido pasar directamente al o3, omitiendo el o2 para evitar confusiones (o conflictos de marca registrada) con la compañía de telecomunicaciones británica llamada O2.

El término “razonamiento” se ha convertido en una palabra de moda en la industria de la IA últimamente, pero básicamente significa que la máquina descompone instrucciones en tareas más pequeñas que pueden generar mejores resultados. Estos modelos suelen mostrar el proceso que llevaron a cabo para llegar a una respuesta, en lugar de simplemente dar una respuesta final sin explicación.

Según la empresa, el o3 supera todos los récords de rendimiento anteriores. Supera a su predecesor en pruebas de codificación (llamadas SWE-Bench Verified) en un 22.8 % y obtiene mejores resultados que el científico jefe de OpenAI en programación competitiva. El modelo casi logró una puntuación perfecta en una de las competencias de matemáticas más difíciles (llamada AIME 2024), fallando solo una pregunta, y alcanzó un 87.7 % en un estándar de problemas científicos de nivel experto (llamado GPQA Diamond). En los desafíos más difíciles de matemáticas y razonamiento que suelen desconcertar a la IA, o3 resolvió el 25.2 % de los problemas (donde ningún otro modelo supera el 2 %).

La empresa también anunció nueva investigación sobre alineación deliberativa, que requiere que el modelo de IA procese decisiones de seguridad paso a paso. En lugar de simplemente dar reglas de sí/no al modelo de IA, este paradigma requiere que razone activamente sobre si una solicitud del usuario se ajusta a las políticas de seguridad de OpenAI. La empresa afirma que, al probar esto en el o1, fue mucho mejor en seguir las pautas de seguridad que los modelos anteriores, incluido GPT-4.

--

--

Ángel Leonardo Torres
Ángel Leonardo Torres

Written by Ángel Leonardo Torres

Todo evolucionana ¿te vas a quedar atras?

No responses yet