Detalhes do conteúdo

Num mundo em que a tecnologia e o conhecimento estão interligados, cada leitura é como uma aventura fantástica que nos dá uma sensação de sabedoria e inspira uma criatividade sem fim.

OpenAI lança a série GPT-4.1: melhorias drásticas na codificação, execução de instruções e contextos longos

I. Introdução

Em 15 de abril de 2025, a OpenAI lançou oficialmente a nova série de modelos GPT-4.1, incluindo GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Este lançamento marca outro grande avanço no desempenho do modelo da OpenAI, na relação custo-eficácia e nas capacidades de aplicação no mundo real, especialmente nas áreas de tarefas de codificação, cumprimento de instruções e processamento de contexto longo, proporcionando aos programadores melhores escolhas a preços e latências mais baixos.

O GPT-4.1 mini está agora disponível no ShirtAI para utilização gratuita e ilimitada, a um clique de distância do sítio Web oficial:www.lsshirtai.com

 

Se pretender chamar como uma API GPT-4.1 consultar o sítio Web:https://coultra.blueshirtmap.com/

II. Saltar nas competências de codificação: reforçar toda a dimensão, desde a geração de códigos até à prática de engenharia

No campo de batalha central do desenvolvimento de software, a série GPT-4.1 mostra uma mudança qualitativa de "geração de fragmentos de código" para "processamento de engenharia complexo". Em resposta às necessidades da engenharia de software do mundo real, o modelo atinge uma taxa de conclusão de tarefas de 54,6% no teste SWE-bench Verified, que é 21% superior ao seu antecessor GPT-4o, e ultrapassa mesmo a versão de pré-visualização GPT-4.5, ainda por lançar, em 26,6 pontos percentuais. Este avanço não se reflecte apenas na precisão da lógica do código, mas também na compreensão profunda da base de código multilingue - no teste de referência de diferenças multilingues da Aider, o GPT-4.1 obteve o dobro da pontuação do GPT-4o, e pode seguir com precisão o formato de diferenças para produzir apenas as linhas modificadas, e controlar de forma estável o limite superior dos tokens de saída em 32.768, o que reduz consideravelmente o número de programadores. Pode seguir com precisão o formato diff para produzir apenas as linhas modificadas e controlar de forma estável o limite de tokens de saída a 32.768, o que reduz significativamente o custo de depuração dos programadores. No cenário de desenvolvimento front-end, a pontuação manual mostra que a probabilidade de a aplicação Web gerada ser favorecida em termos de funcionalidade e estética atinge 80%, e a capacidade de desenvolvimento full-stack ultrapassa pela primeira vez a maioria dos modelos de código dedicados.
Comparação dos indicadores principais:
modelação SWE-bench Verificado Aider Multilingual Benchmarks Pontuação manual do desenvolvimento front-end Limite superior do token de saída Código diff Precisão
GPT-4.1 54.6% 11.2 80% 32768 53%
Prévia do GPT-4.5 38.0% 7.4 52% 16384 45%
o3-mini-alto 49.3% 9.8 65% 16384 60%
o1 41.2% 6.1 48% 128000 62%

 

III. avanço na execução de comandos: precisão e fiabilidade do processamento de tarefas complexas

Face a instruções complexas com múltiplos passos e restrições, o GPT-4.1 dá o salto da "correspondência difusa" para a "execução precisa". No benchmark MultiChallenge da Scale, a sua pontuação de aderência às instruções atinge 38,3%, 10,5% superior à do GPT-4o; e a sua pontuação no benchmark IFEval é de 87,4%, ultrapassando largamente os 81,0% do seu antecessor. O modelo reforça especialmente as três principais dificuldades de conformidade com o formato (por exemplo, estruturas aninhadas XML/YAML), instruções negativas (rejeitando explicitamente pedidos sensíveis) e tarefas ordenadas (executando fluxos de trabalho passo a passo), e a frequência de edições inválidas nos cenários difíceis de sinalização desce para 2% de 9% no GPT-4o numa avaliação interna da OpenAI. Em várias rondas de diálogo, a sua coerência contextual atinge 92%, seguindo com precisão os detalhes exigidos nas instruções históricas, proporcionando fiabilidade de nível industrial para o serviço inteligente ao cliente, fluxo de trabalho automatizado e outros cenários.
Comparação dos indicadores principais:
modelação Desafio múltiplo IFEval Coerência do diálogo em várias rondas As diretivas negativas são seguidas Taxa de conclusão do mandato ordenado
GPT-4.1 38.3% 87.4% 92% 98% 95%
Prévia do GPT-4.5 44.2% 81.0% 78% 89% 82%
o3-mini-alto 40.1% 85.2% 88% 96% 91%
o1 45.1% 87.1% 89% 97% 94%

 

Inovação de contexto longo: milhões de janelas de fichas abrem novas possibilidades para aplicações profundas em vários cenários.

O GPT-4.1 vem de fábrica com uma janela de contexto de 1 milhão de tokens, o que leva o processamento de texto longo a uma nova dimensão - ele pode conter cerca de 8 bases de código React completas ou 3.000 páginas de documentos legais, o que resolve completamente o problema de "fora de contexto" no modelo anterior. "O ponto fraco do modelo anterior. Na tarefa de análise de vídeos longos sem guião Video-MME, o modelo obteve 72%, uma melhoria de 6,7% em relação ao GPT-4o; os testes no conjunto de dados de código aberto Graphwalks mostraram que a sua precisão de inferência multi-hop numa escala de milhões de tokens atingiu 61,7%, excedendo largamente a do modelo o1 que se baseia em contextos curtos (48,7%). O OpenAI optimiza de forma síncrona a economia dos pedidos de contextos longos: uma janela de 1 milhão de tokens está incluída no preço padrão, o desconto da cache é aumentado de 50% para 75% e a latência de resposta de 128K tokens é reduzida para 15 segundos, o que é 30% mais rápido do que o GPT-4.5, fornecendo uma solução tecnológica fundamentada para cenários como a revisão de contratos legais e a auditoria de bases de código em grande escala.
Comparação dos indicadores principais:
modelação janela de contexto Vídeo-MME sem legendas Raciocínio Graphwalks Desconto na cache Atraso de 128K para fichas
GPT-4.1 1,000,000 72.0% 61.7% 75% 15 segundos.
Prévia do GPT-4.5 128,000 65.3% 42.0% 50% 22 segundos.
o3-mini-alto 256,000 68.5% 55.2% 50% 18 segundos.
o1 128,000 64.1% 48.7% 50% 25 segundos.

V. Custo e eficiência: uma atualização pragmática para os criadores

A estratégia de "preços diferenciados + otimização do desempenho" da OpenAI permite que os programadores de todas as dimensões obtenham uma opção rentável. O modelo de entrada de gama, GPT-4.1 nano, reduz o custo de entrada para $2/milhão de tokens e o custo de saída para $8/milhão de tokens, mantendo uma janela de milhões de tokens, e reduz a latência em 50% em comparação com o GPT-4o, tornando-o a escolha preferida para tarefas de carga ligeira, como a categorização de texto e o preenchimento automático; o GPT-4.1 mini de gama média supera o GPT-4o em cenários de carga média, como a geração de código e diálogos de várias rondas, reduzindo o custo em 60%. O modelo de gama média, GPT-4.1 mini, supera o GPT-4o na geração de código, diálogos multi-round e outros cenários de carga média, ao mesmo tempo que custa menos 60%. Em comparação, o custo de entrada da pré-visualização do GPT-4.5 é tão elevado como $75/milhões de tokens, o que é apenas 1/25 da relação preço/desempenho do GPT-4.1, que é a principal razão pela qual será descontinuado até julho de 2025, e o novo modelo adopta uniformemente o modelo "GPT-4". Além disso, o novo modelo adopta uma política uniforme de "sem sobretaxa para contextos longos", o que altera completamente o problema de custos do modelo anterior quando se trata de textos longos.
Comparação dos indicadores principais:
modelação Custo de entrada ($ / milhão de tokens) Custo de produção ($/milhão de tokens) Atraso (ficha de 128K)
GPT-4.1 nano 0.10 0.40 5 segundos.
GPT-4.1 mini 0.40 1.60 8 segundos.
GPT-4.1 2.00 8.00 15 segundos.
Prévia do GPT-4.5 75.0 150.0 22 segundos.
o3-mini-alto 1.10 4.40 18 segundos.
o1 15.00 60.00 25 segundos.
* :: Índice custo-desempenho = (capacidade de codificação + pontuação do comando + janela de contexto)/(custo + latência), quanto mais elevado for o valor, melhor

 

Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

espaço publicitário

Testemunhe a super magia da IA em conjunto!

Abrace o seu assistente de IA e aumente a sua produtividade com apenas um clique!