Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

OpenAI presenta sus últimos modelos de inferencia o3 y o4-mini: saltos de rendimiento e innovación de paradigmas

El 17 de abril de 2025, OpenAI lanzó oficialmente los nuevos modelos de inferencia o3 (versión completa) y o4-mini en una retransmisión en directo a última hora de la noche, sustituyendo a los antiguos modelos anteriores como o1 y o3-mini. Esta actualización consigue mejoras significativas en las áreas de inferencia de conocimiento, procesamiento multimodal y capacidades de código, al tiempo que optimiza la estrategia de precios para ofrecer una experiencia de IA más eficiente a desarrolladores y usuarios.
ShirtAI permite el uso gratuito e ilimitado de GPT-4, GPT-4o strongest, GPT-4.1-mini y otros modelos con un solo clic desde el sitio web oficial:www.lsshirtai.com

 

I. Visión general del modelo: una actualización completa desde los parámetros hasta el posicionamiento

Los modelos o3 y o4-mini de OpenAI se basan en una nueva arquitectura y se centran en escenarios diferentes:
  • o3: Como "versión completa" del modelo insignia, se centra en el razonamiento avanzado y la sinergia de herramientas, admite el acceso a herramientas con todas las funciones (por ejemplo, Python, navegación por redes, llamadas a funciones) y, por primera vez, realiza un "razonamiento visual integrado en la cadena de pensamiento", adecuado para la resolución de problemas complejos.
  • o4-mini: un modelo ligero y de alto rendimiento centrado en tareas rápidas de razonamiento de alto nivel y código/visión, con una excelente relación precio/rendimiento sin dejar de ser eficiente.

En segundo lugar, la comparación de resultados: capacidad multidimensional para aplastar al modelo antiguo.

1. Razonamiento intelectual: aumento de la precisión gracias a las herramientas

En concursos de matemáticas, problemas de ciencias y pruebas transversales, o3 y o4-mini muestran un rendimiento aplastante, especialmente cuando se permite el uso de herramientas:
Conjuntos de datos / tareas o1 o3-mini o3 (sin herramientas) o3 (con Python) o4-mini (sin herramientas) o4-mini (con Python)
Concurso de matemáticas AIME 2024 (AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Concurso de códigos Codeforces (ELO) 1891 2073 2719 2073
Preguntas sobre la ciencia del diamante GPQA (AC%) 78 77 83.3 81.4
El último examen de la humanidad (AC%) 13.4 20.3 20.3 24.9 14.28 17.7
Principales conclusiones:
  • La precisión de AIME mejoró de 91,6% a 95,2% después de o3 calls Python, y Humanity's Last Exam mejoró su precisión en 24,9% con la cadena de herramientas.
  • Aunque o4-mini es un modelo ligero, ha alcanzado 93,41 TP3T (AIME) sin herramientas, lo que se acerca a la versión con herramientas de o3, y la relación calidad-precio es sobresaliente. o4-mini-high resolvió uno de los últimos problemas del Proyecto Euler en 2 minutos y 55 segundos, pero no es un problema sencillo, sólo 15 personas pueden resolverlo en 30 minutos, y es un problema nuevo que salió hace sólo unos días. Se trata de un problema nuevo que salió hace sólo unos días y no podría haber aparecido en el conjunto de entrenamiento de o4, lo que sugiere que o4-mini-high se basó en el "pensamiento" para resolverlo.

 

2. Razonamiento visual multimodal: del "reconocimiento de imágenes" al "pensamiento de imágenes"

Por primera vez, o3 y o4-mini admiten la integración del razonamiento visual en la cadena de pensamiento, superando con creces a los modelos anteriores en tareas complejas de comprensión de imágenes:
conjunto de datos declaración de objetivos o1 o3 o4-mini
MMMU (Matemáticas Visuales Universitarias) Resolución integrada de problemas con fórmulas y gráficos (AC%) 77.6 82.9 81.6
MathVista (matemáticas visuales) Razonamiento con imágenes geométricas / funcionales (AC%) 71.8 87.5 84.3
CharXiv-Razonamiento Comprensión de diagramas científicos (AC%) 55.1 75.4 72
Importancia del avance: o3 puede "mirar la foto y pensar" como los seres humanos, haciendo realidad la actualización del paradigma del "procesamiento de píxeles" al "razonamiento de escenas". Un usuario tomó casualmente una foto de camino al trabajo y pidió a o3 que analizara la ubicación. Un usuario tomó una foto de camino al trabajo y pidió a o3 que analizara la ubicación, primero amplió la imagen en la interceptación, analizó la información clave de la imagen, luego buscó en páginas web relevantes para acotar el ámbito de búsqueda paso a paso, y finalmente dio la información específica de la ubicación.

 

3. Código y capacidades de ingeniería: o3 es el desarrollador elegido

En tareas de ingeniería de software, o3 lidera con acceso a herramientas y comprensión de código, mientras que o4-mini está equilibrado en escenarios ligeros:
tarea de código norma o1-alto o3-mini o3-alto o4-mini-alto
Validación SWE-Bench (AC%) Algoritmos / Diseño de sistemas 48.9 69.1 69.1 68.1
Editor de código Aider (completo) Reescritura multilingüe global (%) 66.7 81.3 81.3 64.4
SWE-Lancer Ingresos por recepción de pedidos Trabajos autónomos ($) 118,000 177,000 236,000
Valor práctico: o3 ha alcanzado una media de 236.000 dólares al mes en tareas reales de codificación, superando con creces al modelo antiguo y convirtiéndose en una herramienta fundamental para el desarrollo de código a nivel empresarial; o4-mini es adecuada para la creación rápida de prototipos y la depuración ligera de código.

 

 

 

 

4. Uso y aplicación de herramientas: o3 Un nuevo paradigma para construir inteligencias

o3 demuestra una mayor coherencia de tareas en escenarios de colaboración de herramientas, como el seguimiento de comandos de varias rondas, la manipulación de navegadores y las llamadas a funciones:
Tareas instrumentales norma o1-alto o3-mini o3 (versión de la herramienta) o4-mini (versión herramienta)
Escala MultiReto Seguimiento de órdenes de varias rondas (AC%) 28.3 44.93 56.51 42.99
Operaciones del navegador BrowseComp Captura de información (AC%) 32.4 50.0 70.8 52.0
Llamadas a funciones de Tau-bench Salida estructurada (AC%) 49.7 51.5 57,6 (al por menor) 65,6 (al por menor)
Ventajas clave: la capacidad de o3 para manejar de forma autónoma navegadores virtuales y llamar a API para generar resultados estructurados, como JSON de reservas de vuelos, proporciona capacidades de nivel comercial en la automatización de procesos complejos.

 

III. Parámetros y precios: relación calidad/precio totalmente optimizada

modelización capacidad de razonamiento tempo Precio (entrada/salida/mil fichas) Entradas admitidas ventana contextual
o1 infraestructuras el más lento $15-$60 Texto / Imagen 200,000
o3-mini alto nivel moderado $1.1-$4.4 ejemplares 200,000
o4-mini alto nivel moderado $1.1-$4.4 Texto / Imagen 200,000
o3 supremo el más lento $10-$40 Texto / Imagen 200,000
o1-pro profesiones el más lento $150-$600 Texto / Imagen 200,000
Ajustes en el núcleo: o3 tiene un precio 1/3 inferior a o1 para una relación calidad/precio mucho mejor; o4-mini tiene el mismo precio que o3-mini, pero con soporte para entrada de imágenes y mejor inferencia.

Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: abch891) si no sabe cómo recargar su cuenta.

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.