I. Introdução
Em 15 de abril de 2025, a OpenAI lançou oficialmente a nova série de modelos GPT-4.1, incluindo GPT-4.1, GPT-4.1 mini e GPT-4.1 nano. Este lançamento marca outro grande avanço no desempenho do modelo da OpenAI, na relação custo-eficácia e nas capacidades de aplicação no mundo real, especialmente nas áreas de tarefas de codificação, cumprimento de instruções e processamento de contexto longo, proporcionando aos programadores melhores escolhas a preços e latências mais baixos.
O GPT-4.1 mini está agora disponível no ShirtAI para utilização gratuita e ilimitada, a um clique de distância do sítio Web oficial:www.lsshirtai.com

Se pretender chamar como uma API GPT-4.1 consultar o sítio Web:https://coultra.blueshirtmap.com/
II. Saltar nas competências de codificação: reforçar toda a dimensão, desde a geração de códigos até à prática de engenharia
No campo de batalha central do desenvolvimento de software, a série GPT-4.1 mostra uma mudança qualitativa de "geração de fragmentos de código" para "processamento de engenharia complexo". Em resposta às necessidades da engenharia de software do mundo real, o modelo atinge uma taxa de conclusão de tarefas de 54,6% no teste SWE-bench Verified, que é 21% superior ao seu antecessor GPT-4o, e ultrapassa mesmo a versão de pré-visualização GPT-4.5, ainda por lançar, em 26,6 pontos percentuais. Este avanço não se reflecte apenas na precisão da lógica do código, mas também na compreensão profunda da base de código multilingue - no teste de referência de diferenças multilingues da Aider, o GPT-4.1 obteve o dobro da pontuação do GPT-4o, e pode seguir com precisão o formato de diferenças para produzir apenas as linhas modificadas, e controlar de forma estável o limite superior dos tokens de saída em 32.768, o que reduz consideravelmente o número de programadores. Pode seguir com precisão o formato diff para produzir apenas as linhas modificadas e controlar de forma estável o limite de tokens de saída a 32.768, o que reduz significativamente o custo de depuração dos programadores. No cenário de desenvolvimento front-end, a pontuação manual mostra que a probabilidade de a aplicação Web gerada ser favorecida em termos de funcionalidade e estética atinge 80%, e a capacidade de desenvolvimento full-stack ultrapassa pela primeira vez a maioria dos modelos de código dedicados.
Comparação dos indicadores principais:
modelação | SWE-bench Verificado | Aider Multilingual Benchmarks | Pontuação manual do desenvolvimento front-end | Limite superior do token de saída | Código diff Precisão |
---|---|---|---|---|---|
GPT-4.1 | 54.6% | 11.2 | 80% | 32768 | 53% |
Prévia do GPT-4.5 | 38.0% | 7.4 | 52% | 16384 | 45% |
o3-mini-alto | 49.3% | 9.8 | 65% | 16384 | 60% |
o1 | 41.2% | 6.1 | 48% | 128000 | 62% |
III. avanço na execução de comandos: precisão e fiabilidade do processamento de tarefas complexas
Face a instruções complexas com múltiplos passos e restrições, o GPT-4.1 dá o salto da "correspondência difusa" para a "execução precisa". No benchmark MultiChallenge da Scale, a sua pontuação de aderência às instruções atinge 38,3%, 10,5% superior à do GPT-4o; e a sua pontuação no benchmark IFEval é de 87,4%, ultrapassando largamente os 81,0% do seu antecessor. O modelo reforça especialmente as três principais dificuldades de conformidade com o formato (por exemplo, estruturas aninhadas XML/YAML), instruções negativas (rejeitando explicitamente pedidos sensíveis) e tarefas ordenadas (executando fluxos de trabalho passo a passo), e a frequência de edições inválidas nos cenários difíceis de sinalização desce para 2% de 9% no GPT-4o numa avaliação interna da OpenAI. Em várias rondas de diálogo, a sua coerência contextual atinge 92%, seguindo com precisão os detalhes exigidos nas instruções históricas, proporcionando fiabilidade de nível industrial para o serviço inteligente ao cliente, fluxo de trabalho automatizado e outros cenários.
Comparação dos indicadores principais:
modelação | Desafio múltiplo | IFEval | Coerência do diálogo em várias rondas | As diretivas negativas são seguidas | Taxa de conclusão do mandato ordenado |
---|---|---|---|---|---|
GPT-4.1 | 38.3% | 87.4% | 92% | 98% | 95% |
Prévia do GPT-4.5 | 44.2% | 81.0% | 78% | 89% | 82% |
o3-mini-alto | 40.1% | 85.2% | 88% | 96% | 91% |
o1 | 45.1% | 87.1% | 89% | 97% | 94% |
Inovação de contexto longo: milhões de janelas de fichas abrem novas possibilidades para aplicações profundas em vários cenários.
O GPT-4.1 vem de fábrica com uma janela de contexto de 1 milhão de tokens, o que leva o processamento de texto longo a uma nova dimensão - ele pode conter cerca de 8 bases de código React completas ou 3.000 páginas de documentos legais, o que resolve completamente o problema de "fora de contexto" no modelo anterior. "O ponto fraco do modelo anterior. Na tarefa de análise de vídeos longos sem guião Video-MME, o modelo obteve 72%, uma melhoria de 6,7% em relação ao GPT-4o; os testes no conjunto de dados de código aberto Graphwalks mostraram que a sua precisão de inferência multi-hop numa escala de milhões de tokens atingiu 61,7%, excedendo largamente a do modelo o1 que se baseia em contextos curtos (48,7%). O OpenAI optimiza de forma síncrona a economia dos pedidos de contextos longos: uma janela de 1 milhão de tokens está incluída no preço padrão, o desconto da cache é aumentado de 50% para 75% e a latência de resposta de 128K tokens é reduzida para 15 segundos, o que é 30% mais rápido do que o GPT-4.5, fornecendo uma solução tecnológica fundamentada para cenários como a revisão de contratos legais e a auditoria de bases de código em grande escala.
Comparação dos indicadores principais:
modelação | janela de contexto | Vídeo-MME sem legendas | Raciocínio Graphwalks | Desconto na cache | Atraso de 128K para fichas |
---|---|---|---|---|---|
GPT-4.1 | 1,000,000 | 72.0% | 61.7% | 75% | 15 segundos. |
Prévia do GPT-4.5 | 128,000 | 65.3% | 42.0% | 50% | 22 segundos. |
o3-mini-alto | 256,000 | 68.5% | 55.2% | 50% | 18 segundos. |
o1 | 128,000 | 64.1% | 48.7% | 50% | 25 segundos. |
V. Custo e eficiência: uma atualização pragmática para os criadores
A estratégia de "preços diferenciados + otimização do desempenho" da OpenAI permite que os programadores de todas as dimensões obtenham uma opção rentável. O modelo de entrada de gama, GPT-4.1 nano, reduz o custo de entrada para $2/milhão de tokens e o custo de saída para $8/milhão de tokens, mantendo uma janela de milhões de tokens, e reduz a latência em 50% em comparação com o GPT-4o, tornando-o a escolha preferida para tarefas de carga ligeira, como a categorização de texto e o preenchimento automático; o GPT-4.1 mini de gama média supera o GPT-4o em cenários de carga média, como a geração de código e diálogos de várias rondas, reduzindo o custo em 60%. O modelo de gama média, GPT-4.1 mini, supera o GPT-4o na geração de código, diálogos multi-round e outros cenários de carga média, ao mesmo tempo que custa menos 60%. Em comparação, o custo de entrada da pré-visualização do GPT-4.5 é tão elevado como $75/milhões de tokens, o que é apenas 1/25 da relação preço/desempenho do GPT-4.1, que é a principal razão pela qual será descontinuado até julho de 2025, e o novo modelo adopta uniformemente o modelo "GPT-4". Além disso, o novo modelo adopta uma política uniforme de "sem sobretaxa para contextos longos", o que altera completamente o problema de custos do modelo anterior quando se trata de textos longos.
Comparação dos indicadores principais:
modelação | Custo de entrada ($ / milhão de tokens) | Custo de produção ($/milhão de tokens) | Atraso (ficha de 128K) |
---|---|---|---|
GPT-4.1 nano | 0.10 | 0.40 | 5 segundos. |
GPT-4.1 mini | 0.40 | 1.60 | 8 segundos. |
GPT-4.1 | 2.00 | 8.00 | 15 segundos. |
Prévia do GPT-4.5 | 75.0 | 150.0 | 22 segundos. |
o3-mini-alto | 1.10 | 4.40 | 18 segundos. |
o1 | 15.00 | 60.00 | 25 segundos. |
* :: Índice custo-desempenho = (capacidade de codificação + pontuação do comando + janela de contexto)/(custo + latência), quanto mais elevado for o valor, melhor
Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.