OpenAI 发布 GPT-4.1 系列：编码、指令执行与长上下文能力大幅提升

Detalhes do conteúdo

Num mundo em que a tecnologia e o conhecimento estão interligados, cada leitura é como uma aventura fantástica que nos dá uma sensação de sabedoria e inspira uma criatividade sem fim.

OpenAI lança a série GPT-4.1: melhorias drásticas na codificação, execução de instruções e contextos longos

I. Introdução

Em 15 de abril de 2025, a OpenAI lançou oficialmente a nova série de modelos GPT-4.1, incluindo GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Este lançamento marca outro grande avanço no desempenho do modelo da OpenAI, na relação custo-eficácia e nas capacidades de aplicação no mundo real, especialmente nas áreas de tarefas de codificação, cumprimento de instruções e processamento de contexto longo, proporcionando aos programadores melhores escolhas a preços e latências mais baixos.

O GPT-4.1 mini está agora disponível no ShirtAI para utilização gratuita e ilimitada, a um clique de distância do sítio Web oficial:www.lsshirtai.com

Se pretender chamar como uma API GPT-4.1 consultar o sítio Web:https://coultra.blueshirtmap.com/

II. Saltar nas competências de codificação: reforçar toda a dimensão, desde a geração de códigos até à prática de engenharia

No campo de batalha central do desenvolvimento de software, a série GPT-4.1 mostra uma mudança qualitativa de "geração de fragmentos de código" para "processamento de engenharia complexo". Em resposta às necessidades da engenharia de software do mundo real, o modelo atinge uma taxa de conclusão de tarefas de 54,6% no teste SWE-bench Verified, que é 21% superior ao seu antecessor GPT-4o, e ultrapassa mesmo a versão de pré-visualização GPT-4.5, ainda por lançar, em 26,6 pontos percentuais. Este avanço não se reflecte apenas na precisão da lógica do código, mas também na compreensão profunda da base de código multilingue - no teste de referência de diferenças multilingues da Aider, o GPT-4.1 obteve o dobro da pontuação do GPT-4o, e pode seguir com precisão o formato de diferenças para produzir apenas as linhas modificadas, e controlar de forma estável o limite superior dos tokens de saída em 32.768, o que reduz consideravelmente o número de programadores. Pode seguir com precisão o formato diff para produzir apenas as linhas modificadas e controlar de forma estável o limite de tokens de saída a 32.768, o que reduz significativamente o custo de depuração dos programadores. No cenário de desenvolvimento front-end, a pontuação manual mostra que a probabilidade de a aplicação Web gerada ser favorecida em termos de funcionalidade e estética atinge 80%, e a capacidade de desenvolvimento full-stack ultrapassa pela primeira vez a maioria dos modelos de código dedicados.

Comparação dos indicadores principais:

modelação	SWE-bench Verificado	Aider Multilingual Benchmarks	Pontuação manual do desenvolvimento front-end	Limite superior do token de saída	Código diff Precisão
GPT-4.1	54.6%	11.2	80%	32768	53%
Prévia do GPT-4.5	38.0%	7.4	52%	16384	45%
o3-mini-alto	49.3%	9.8	65%	16384	60%
o1	41.2%	6.1	48%	128000	62%

III. avanço na execução de comandos: precisão e fiabilidade do processamento de tarefas complexas

Face a instruções complexas com múltiplos passos e restrições, o GPT-4.1 dá o salto da "correspondência difusa" para a "execução precisa". No benchmark MultiChallenge da Scale, a sua pontuação de aderência às instruções atinge 38,3%, 10,5% superior à do GPT-4o; e a sua pontuação no benchmark IFEval é de 87,4%, ultrapassando largamente os 81,0% do seu antecessor. O modelo reforça especialmente as três principais dificuldades de conformidade com o formato (por exemplo, estruturas aninhadas XML/YAML), instruções negativas (rejeitando explicitamente pedidos sensíveis) e tarefas ordenadas (executando fluxos de trabalho passo a passo), e a frequência de edições inválidas nos cenários difíceis de sinalização desce para 2% de 9% no GPT-4o numa avaliação interna da OpenAI. Em várias rondas de diálogo, a sua coerência contextual atinge 92%, seguindo com precisão os detalhes exigidos nas instruções históricas, proporcionando fiabilidade de nível industrial para o serviço inteligente ao cliente, fluxo de trabalho automatizado e outros cenários.

Comparação dos indicadores principais:

modelação	Desafio múltiplo	IFEval	Coerência do diálogo em várias rondas	As diretivas negativas são seguidas	Taxa de conclusão do mandato ordenado
GPT-4.1	38.3%	87.4%	92%	98%	95%
Prévia do GPT-4.5	44.2%	81.0%	78%	89%	82%
o3-mini-alto	40.1%	85.2%	88%	96%	91%
o1	45.1%	87.1%	89%	97%	94%

Inovação de contexto longo: milhões de janelas de fichas abrem novas possibilidades para aplicações profundas em vários cenários.

O GPT-4.1 vem de fábrica com uma janela de contexto de 1 milhão de tokens, o que leva o processamento de texto longo a uma nova dimensão - ele pode conter cerca de 8 bases de código React completas ou 3.000 páginas de documentos legais, o que resolve completamente o problema de "fora de contexto" no modelo anterior. "O ponto fraco do modelo anterior. Na tarefa de análise de vídeos longos sem guião Video-MME, o modelo obteve 72%, uma melhoria de 6,7% em relação ao GPT-4o; os testes no conjunto de dados de código aberto Graphwalks mostraram que a sua precisão de inferência multi-hop numa escala de milhões de tokens atingiu 61,7%, excedendo largamente a do modelo o1 que se baseia em contextos curtos (48,7%). O OpenAI optimiza de forma síncrona a economia dos pedidos de contextos longos: uma janela de 1 milhão de tokens está incluída no preço padrão, o desconto da cache é aumentado de 50% para 75% e a latência de resposta de 128K tokens é reduzida para 15 segundos, o que é 30% mais rápido do que o GPT-4.5, fornecendo uma solução tecnológica fundamentada para cenários como a revisão de contratos legais e a auditoria de bases de código em grande escala.

Comparação dos indicadores principais:

modelação	janela de contexto	Vídeo-MME sem legendas	Raciocínio Graphwalks	Desconto na cache	Atraso de 128K para fichas
GPT-4.1	1,000,000	72.0%	61.7%	75%	15 segundos.
Prévia do GPT-4.5	128,000	65.3%	42.0%	50%	22 segundos.
o3-mini-alto	256,000	68.5%	55.2%	50%	18 segundos.
o1	128,000	64.1%	48.7%	50%	25 segundos.

V. Custo e eficiência: uma atualização pragmática para os criadores

A estratégia de "preços diferenciados + otimização do desempenho" da OpenAI permite que os programadores de todas as dimensões obtenham uma opção rentável. O modelo de entrada de gama, GPT-4.1 nano, reduz o custo de entrada para $2/milhão de tokens e o custo de saída para $8/milhão de tokens, mantendo uma janela de milhões de tokens, e reduz a latência em 50% em comparação com o GPT-4o, tornando-o a escolha preferida para tarefas de carga ligeira, como a categorização de texto e o preenchimento automático; o GPT-4.1 mini de gama média supera o GPT-4o em cenários de carga média, como a geração de código e diálogos de várias rondas, reduzindo o custo em 60%. O modelo de gama média, GPT-4.1 mini, supera o GPT-4o na geração de código, diálogos multi-round e outros cenários de carga média, ao mesmo tempo que custa menos 60%. Em comparação, o custo de entrada da pré-visualização do GPT-4.5 é tão elevado como $75/milhões de tokens, o que é apenas 1/25 da relação preço/desempenho do GPT-4.1, que é a principal razão pela qual será descontinuado até julho de 2025, e o novo modelo adopta uniformemente o modelo "GPT-4". Além disso, o novo modelo adopta uma política uniforme de "sem sobretaxa para contextos longos", o que altera completamente o problema de custos do modelo anterior quando se trata de textos longos.

Comparação dos indicadores principais:

modelação	Custo de entrada ($ / milhão de tokens)	Custo de produção ($/milhão de tokens)	Atraso (ficha de 128K)
GPT-4.1 nano	0.10	0.40	5 segundos.
GPT-4.1 mini	0.40	1.60	8 segundos.
GPT-4.1	2.00	8.00	15 segundos.
Prévia do GPT-4.5	75.0	150.0	22 segundos.
o3-mini-alto	1.10	4.40	18 segundos.
o1	15.00	60.00	25 segundos.

* :: Índice custo-desempenho = (capacidade de codificação + pontuação do comando + janela de contexto)/(custo + latência), quanto mais elevado for o valor, melhor

Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

categorias.

Boletim informativo

espaço publicitário

Testemunhe a super magia da IA em conjunto!

Abrace o seu assistente de IA e aumente a sua produtividade com apenas um clique!

Detalhes do conteúdo

OpenAI lança a série GPT-4.1: melhorias drásticas na codificação, execução de instruções e contextos longos

I. Introdução

II. Saltar nas competências de codificação: reforçar toda a dimensão, desde a geração de códigos até à prática de engenharia

III. avanço na execução de comandos: precisão e fiabilidade do processamento de tarefas complexas

Inovação de contexto longo: milhões de janelas de fichas abrem novas possibilidades para aplicações profundas em vários cenários.

V. Custo e eficiência: uma atualização pragmática para os criadores

Para mais produtos, consultar

Ver mais em

categorias.

Boletim informativo

espaço publicitário

Testemunhe a super magia da IA em conjunto!

A inteligência artificial mais forte do mundo

Índice de navegação

Ligação amigável

Contactar-nos