Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

OpenAI lanza la serie GPT-4.1: mejoras espectaculares en la codificación, la ejecución de instrucciones y los contextos largos

I. Introducción

El 15 de abril de 2025, OpenAI lanzó oficialmente la nueva serie de modelos GPT-4.1, que incluye GPT-4.1, GPT-4.1 mini y GPT-4.1 nano. Este lanzamiento supone otro gran avance en el rendimiento, la rentabilidad y las capacidades de aplicación en el mundo real de los modelos de OpenAI, especialmente en las áreas de tareas de codificación, cumplimiento de instrucciones y procesamiento de contextos largos, al tiempo que proporciona a los desarrolladores mejores opciones a precios y latencias más bajos.

GPT-4.1 mini ya está disponible en ShirtAI para su uso gratuito e ilimitado, a un solo clic del sitio web oficial:www.lsshirtai.com

 

Si desea llamar como API GPT-4.1 consulte el sitio web:https://coultra.blueshirtmap.com/

II. Salto de nivel en las destrezas de codificación: reforzar toda la dimensión desde la generación de código hasta la práctica de la ingeniería

En el campo de batalla central del desarrollo de software, la serie GPT-4.1 muestra un cambio cualitativo de la "generación de fragmentos de código" al "procesamiento de ingeniería compleja". En respuesta a las necesidades de la ingeniería de software del mundo real, el modelo alcanza una tasa de finalización de tareas de 54,6% en la prueba SWE-bench Verified, lo que supone 21% más que su predecesor GPT-4o, e incluso supera en 26,6 puntos porcentuales a la versión preliminar de GPT-4.5, aún pendiente de lanzamiento. Este avance no sólo se refleja en la precisión de la lógica del código, sino también en la comprensión en profundidad de la base de código multilingüe: en la prueba de referencia de diferencias multilingües de Aider, GPT-4.1 obtuvo el doble de puntos que GPT-4o, y puede seguir con precisión el formato de diferencias para mostrar sólo las líneas modificadas, y controlar de forma estable el límite superior de los tokens de salida en 32.768, lo que reduce enormemente el número de desarrolladores. Puede seguir con precisión el formato diff para dar salida sólo a las líneas modificadas, y controlar de forma estable el límite de tokens de salida en 32.768, lo que reduce significativamente el coste de depuración de los desarrolladores. En el escenario de desarrollo front-end, la puntuación manual muestra que la probabilidad de que la aplicación web generada se vea favorecida en términos de funcionalidad y estética alcanza los 80%, y la capacidad de desarrollo full-stack supera por primera vez a la mayoría de modelos de código dedicados.
Comparación de indicadores básicos:
modelización SWE-bench Verificado Aider Multilingual Benchmarks Puntuación manual de desarrollo front-end Límite superior del testigo de salida Código dif Precisión
GPT-4.1 54.6% 11.2 80% 32768 53%
Vista previa de GPT-4.5 38.0% 7.4 52% 16384 45%
o3-mini-alto 49.3% 9.8 65% 16384 60%
o1 41.2% 6.1 48% 128000 62%

 

III. Avance en la ejecución de órdenes: precisión y fiabilidad en el procesamiento de tareas complejas

Al enfrentarse a instrucciones complejas con múltiples pasos y restricciones, GPT-4.1 ha logrado el salto de la "coincidencia difusa" a la "ejecución precisa". En la prueba de referencia MultiChallenge de Scale, su puntuación de cumplimiento de instrucciones alcanza los 38,3%, 10,5% más que la de GPT-4o; y su puntuación de referencia IFEval es de 87,4%, superando con creces los 81,0% de su predecesor. El modelo refuerza especialmente las tres dificultades principales de cumplimiento de formatos (por ejemplo, estructuras anidadas XML/YAML), instrucciones negativas (rechazo explícito de solicitudes delicadas) y tareas ordenadas (ejecución de flujos de trabajo paso a paso), y la frecuencia de ediciones no válidas en los escenarios difíciles de cueing cae en picado hasta los 2% desde los 9% de GPT-4o en una evaluación interna de OpenAI. En múltiples rondas de diálogo, su coherencia contextual alcanza los 92%, rastreando con precisión los detalles requeridos en las instrucciones históricas, proporcionando una fiabilidad de nivel industrial para el servicio inteligente al cliente, el flujo de trabajo automatizado y otros escenarios.
Comparación de indicadores básicos:
modelización MultiReto IFEval Coherencia del diálogo a varias bandas Se siguen las directrices negativas Porcentaje de cumplimiento del mandato
GPT-4.1 38.3% 87.4% 92% 98% 95%
Vista previa de GPT-4.5 44.2% 81.0% 78% 89% 82%
o3-mini-alto 40.1% 85.2% 88% 96% 91%
o1 45.1% 87.1% 89% 97% 94%

 

Innovación en contexto prolongado: millones de ventanas de fichas abren nuevas posibilidades para aplicaciones multiescena en profundidad.

GPT-4.1 viene de serie con una ventana de contexto de 1 millón de tokens, lo que eleva la capacidad de procesamiento de texto largo a una nueva dimensión: puede contener unas 8 bases de código React completas o 3000 páginas de documentos legales, resolviendo por completo el punto problemático de "fuera de contexto" del modelo anterior. " punto doloroso del modelo anterior. En la tarea de análisis de vídeo largo sin guiones Video-MME, el modelo obtuvo 72%, una mejora de 6,7% con respecto a GPT-4o; las pruebas en el conjunto de datos de código abierto Graphwalks mostraron que su precisión de inferencia multisalto a una escala de millones de tokens alcanzó 61,7%, superando con creces la del modelo o1 que se basa en contextos cortos (48,7%). OpenAI optimiza de forma sincrónica la economía de las solicitudes de contextos largos: se incluye una ventana de 1 millón de tokens en el precio estándar, se aumenta el descuento de caché de 50% a 75% y se reduce la latencia de respuesta de 128K tokens a 15 segundos, lo que supone 30% más rápido que GPT-4.5, proporcionando una solución técnica fundamentada para escenarios como la revisión de contratos legales y la auditoría de grandes bases de código.
Comparación de indicadores básicos:
modelización ventana contextual Vídeo-MME sin subtítulos Graphwalks Razonamiento Descuento de caché Retardo de token 128K
GPT-4.1 1,000,000 72.0% 61.7% 75% 15 segundos.
Vista previa de GPT-4.5 128,000 65.3% 42.0% 50% 22 segundos.
o3-mini-alto 256,000 68.5% 55.2% 50% 18 segundos.
o1 128,000 64.1% 48.7% 50% 25 segundos.

V. Coste y eficacia: una mejora pragmática para los desarrolladores

La estrategia de "precios escalonados + optimización del rendimiento" de OpenAI permite a desarrolladores de todos los tamaños obtener una opción rentable. El modelo básico, GPT-4.1 nano, reduce el coste de entrada a 2 $/millón de tokens y el de salida a 8 $/millón de tokens, al tiempo que mantiene una ventana de un millón de tokens y reduce la latencia en 50% en comparación con GPT-4o, lo que lo convierte en la opción preferida para tareas de carga ligera, como la categorización de texto y el autocompletado; el modelo de gama media, GPT-4.1 mini, supera a GPT-4o en escenarios de carga media, como la generación de código y los diálogos multironda, al tiempo que reduce el coste en 60%. El modelo de gama media, GPT-4.1 mini, supera a GPT-4o en la generación de código, los diálogos multirronda y otros escenarios de carga media, al tiempo que reduce su coste en 60%. En comparación, el coste de entrada de la vista previa de GPT-4.5 asciende a 75 $/millón de tokens, lo que supone sólo 1/25 de la relación precio/rendimiento de GPT-4.1, que es la razón principal por la que quedará obsoleta en julio de 2025, y el nuevo modelo adopta uniformemente el modelo "GPT-4". Además, el nuevo modelo adopta una política uniforme de "no recargo por contextos largos", lo que cambia por completo el punto débil de los costes del modelo anterior cuando se trata de textos largos.
Comparación de indicadores básicos:
modelización Coste de entrada ($ / millón de fichas) Coste de producción ($/millón de fichas) Retraso (128K token)
GPT-4.1 nano 0.10 0.40 5 segundos.
GPT-4.1 mini 0.40 1.60 8 segundos.
GPT-4.1 2.00 8.00 15 segundos.
Vista previa de GPT-4.5 75.0 150.0 22 segundos.
o3-mini-alto 1.10 4.40 18 segundos.
o1 15.00 60.00 25 segundos.
* :: Índice coste-rendimiento = (capacidad de codificación + puntuación del comando + ventana de contexto)/(coste + latencia), cuanto mayor sea el valor, mejor

 

Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: abch891) si no sabe cómo recargar su cuenta.

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.