Lanzamiento y Propósito

OpenAI ha lanzado o1-mini, un modelo diseñado para ofrecer un razonamiento eficiente a un costo más bajo. Destinado a aplicaciones que requieren habilidades de razonamiento, este modelo es especialmente útil en matemáticas y programación. o1-mini es un 80% más barato que o1-preview y está disponible para usuarios de API de nivel 5, así como para usuarios de ChatGPT Plus, Team, Enterprise y Edu, con mejoras en la velocidad de respuesta y mayor capacidad de uso.

Rendimiento en Matemáticas y Programación

o1-mini destaca en pruebas como la competencia matemática AIME, donde logró un 70% de aciertos, casi igualando a o1 (74.4%) y superando ampliamente a o1-preview (44.6%). En la plataforma de programación Codeforces, o1-mini obtuvo una puntuación Elo de 1650, muy cercana a o1 (1673) y mejor que o1-preview (1258), lo que lo sitúa en el percentil 86 de los competidores.

En el benchmark de evaluación de código HumanEval, o1-mini logró una precisión del 92.4%, igualando a o1-preview. Además, tuvo un rendimiento destacado en desafíos de ciberseguridad CTF de nivel escolar, aunque con menos precisión que o1-preview.

Velocidad y Costo

Comparado con modelos más grandes, como GPT-4o, o1-mini responde de 3 a 5 veces más rápido en preguntas de razonamiento. Esta mejora en la velocidad, junto con su bajo costo, lo convierte en una opción atractiva para tareas que requieren razonamiento pero no conocimientos amplios fuera del dominio STEM.

Limitaciones

El modelo tiene limitaciones en temas que requieren conocimientos generales no relacionados con STEM, como historia o trivia. o1-mini no alcanza el rendimiento de o1-preview en tareas que dependen de un conocimiento más amplio, como las pruebas GPQA y MMLU.

Seguridad y Alineación

o1-mini ha sido entrenado utilizando las mismas técnicas de seguridad que o1-preview y ha demostrado mayor robustez ante intentos de «jailbreak», superando a GPT-4o en las pruebas internas con el dataset StrongREJECT. Además, mostró un mejor equilibrio en la gestión de casos límite de cumplimiento seguro y no rechazo excesivo.