El 17 de abril de 2025, OpenAI lanzó oficialmente los nuevos modelos de inferencia o3 (versión completa) y o4-mini en una retransmisión en directo a última hora de la noche, sustituyendo a los antiguos modelos anteriores como o1 y o3-mini. Esta actualización consigue mejoras significativas en las áreas de inferencia de conocimiento, procesamiento multimodal y capacidades de código, al tiempo que optimiza la estrategia de precios para ofrecer una experiencia de IA más eficiente a desarrolladores y usuarios.
ShirtAI permite el uso gratuito e ilimitado de GPT-4, GPT-4o strongest, GPT-4.1-mini y otros modelos con un solo clic desde el sitio web oficial:www.lsshirtai.com
I. Visión general del modelo: una actualización completa desde los parámetros hasta el posicionamiento
Los modelos o3 y o4-mini de OpenAI se basan en una nueva arquitectura y se centran en escenarios diferentes:
- o3: Como "versión completa" del modelo insignia, se centra en el razonamiento avanzado y la sinergia de herramientas, admite el acceso a herramientas con todas las funciones (por ejemplo, Python, navegación por redes, llamadas a funciones) y, por primera vez, realiza un "razonamiento visual integrado en la cadena de pensamiento", adecuado para la resolución de problemas complejos.
- o4-mini: un modelo ligero y de alto rendimiento centrado en tareas rápidas de razonamiento de alto nivel y código/visión, con una excelente relación precio/rendimiento sin dejar de ser eficiente.
En segundo lugar, la comparación de resultados: capacidad multidimensional para aplastar al modelo antiguo.
1. Razonamiento intelectual: aumento de la precisión gracias a las herramientas
En concursos de matemáticas, problemas de ciencias y pruebas transversales, o3 y o4-mini muestran un rendimiento aplastante, especialmente cuando se permite el uso de herramientas:
Conjuntos de datos / tareas | o1 | o3-mini | o3 (sin herramientas) | o3 (con Python) | o4-mini (sin herramientas) | o4-mini (con Python) |
---|---|---|---|---|---|---|
Concurso de matemáticas AIME 2024 (AC%) | 74.3 | 87.3 | 91.6 | 95.2 | 93.4 | 98.7 |
Concurso de códigos Codeforces (ELO) | 1891 | 2073 | – | 2719 | – | 2073 |
Preguntas sobre la ciencia del diamante GPQA (AC%) | 78 | 77 | 83.3 | – | 81.4 | – |
El último examen de la humanidad (AC%) | 13.4 | 20.3 | 20.3 | 24.9 | 14.28 | 17.7 |
Principales conclusiones:
- La precisión de AIME mejoró de 91,6% a 95,2% después de o3 calls Python, y Humanity's Last Exam mejoró su precisión en 24,9% con la cadena de herramientas.
- Aunque o4-mini es un modelo ligero, ha alcanzado 93,41 TP3T (AIME) sin herramientas, lo que se acerca a la versión con herramientas de o3, y la relación calidad-precio es sobresaliente. o4-mini-high resolvió uno de los últimos problemas del Proyecto Euler en 2 minutos y 55 segundos, pero no es un problema sencillo, sólo 15 personas pueden resolverlo en 30 minutos, y es un problema nuevo que salió hace sólo unos días. Se trata de un problema nuevo que salió hace sólo unos días y no podría haber aparecido en el conjunto de entrenamiento de o4, lo que sugiere que o4-mini-high se basó en el "pensamiento" para resolverlo.
2. Razonamiento visual multimodal: del "reconocimiento de imágenes" al "pensamiento de imágenes"
Por primera vez, o3 y o4-mini admiten la integración del razonamiento visual en la cadena de pensamiento, superando con creces a los modelos anteriores en tareas complejas de comprensión de imágenes:
conjunto de datos | declaración de objetivos | o1 | o3 | o4-mini |
---|---|---|---|---|
MMMU (Matemáticas Visuales Universitarias) | Resolución integrada de problemas con fórmulas y gráficos (AC%) | 77.6 | 82.9 | 81.6 |
MathVista (matemáticas visuales) | Razonamiento con imágenes geométricas / funcionales (AC%) | 71.8 | 87.5 | 84.3 |
CharXiv-Razonamiento | Comprensión de diagramas científicos (AC%) | 55.1 | 75.4 | 72 |
Importancia del avance: o3 puede "mirar la foto y pensar" como los seres humanos, haciendo realidad la actualización del paradigma del "procesamiento de píxeles" al "razonamiento de escenas". Un usuario tomó casualmente una foto de camino al trabajo y pidió a o3 que analizara la ubicación. Un usuario tomó una foto de camino al trabajo y pidió a o3 que analizara la ubicación, primero amplió la imagen en la interceptación, analizó la información clave de la imagen, luego buscó en páginas web relevantes para acotar el ámbito de búsqueda paso a paso, y finalmente dio la información específica de la ubicación.
3. Código y capacidades de ingeniería: o3 es el desarrollador elegido
En tareas de ingeniería de software, o3 lidera con acceso a herramientas y comprensión de código, mientras que o4-mini está equilibrado en escenarios ligeros:
tarea de código | norma | o1-alto | o3-mini | o3-alto | o4-mini-alto |
---|---|---|---|---|---|
Validación SWE-Bench (AC%) | Algoritmos / Diseño de sistemas | 48.9 | 69.1 | 69.1 | 68.1 |
Editor de código Aider (completo) | Reescritura multilingüe global (%) | 66.7 | 81.3 | 81.3 | 64.4 |
SWE-Lancer Ingresos por recepción de pedidos | Trabajos autónomos ($) | 118,000 | 177,000 | 236,000 | – |
Valor práctico: o3 ha alcanzado una media de 236.000 dólares al mes en tareas reales de codificación, superando con creces al modelo antiguo y convirtiéndose en una herramienta fundamental para el desarrollo de código a nivel empresarial; o4-mini es adecuada para la creación rápida de prototipos y la depuración ligera de código.

4. Uso y aplicación de herramientas: o3 Un nuevo paradigma para construir inteligencias
o3 demuestra una mayor coherencia de tareas en escenarios de colaboración de herramientas, como el seguimiento de comandos de varias rondas, la manipulación de navegadores y las llamadas a funciones:
Tareas instrumentales | norma | o1-alto | o3-mini | o3 (versión de la herramienta) | o4-mini (versión herramienta) |
---|---|---|---|---|---|
Escala MultiReto | Seguimiento de órdenes de varias rondas (AC%) | 28.3 | 44.93 | 56.51 | 42.99 |
Operaciones del navegador BrowseComp | Captura de información (AC%) | 32.4 | 50.0 | 70.8 | 52.0 |
Llamadas a funciones de Tau-bench | Salida estructurada (AC%) | 49.7 | 51.5 | 57,6 (al por menor) | 65,6 (al por menor) |
Ventajas clave: la capacidad de o3 para manejar de forma autónoma navegadores virtuales y llamar a API para generar resultados estructurados, como JSON de reservas de vuelos, proporciona capacidades de nivel comercial en la automatización de procesos complejos.
III. Parámetros y precios: relación calidad/precio totalmente optimizada
modelización | capacidad de razonamiento | tempo | Precio (entrada/salida/mil fichas) | Entradas admitidas | ventana contextual |
---|---|---|---|---|---|
o1 | infraestructuras | el más lento | $15-$60 | Texto / Imagen | 200,000 |
o3-mini | alto nivel | moderado | $1.1-$4.4 | ejemplares | 200,000 |
o4-mini | alto nivel | moderado | $1.1-$4.4 | Texto / Imagen | 200,000 |
o3 | supremo | el más lento | $10-$40 | Texto / Imagen | 200,000 |
o1-pro | profesiones | el más lento | $150-$600 | Texto / Imagen | 200,000 |
Ajustes en el núcleo: o3 tiene un precio 1/3 inferior a o1 para una relación calidad/precio mucho mejor; o4-mini tiene el mismo precio que o3-mini, pero con soporte para entrada de imágenes y mejor inferencia.
Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: abch891) si no sabe cómo recargar su cuenta.