Em 17 de abril de 2025, a OpenAI lançou oficialmente os novos modelos de inferência o3 (versão completa) e o4-mini numa transmissão ao vivo durante a noite, substituindo os antigos modelos anteriores, como o1 e o3-mini. Esta atualização consegue melhorias significativas nas áreas de inferência de conhecimentos, processamento multimodal e capacidades de código, ao mesmo tempo que optimiza a estratégia de preços para proporcionar uma experiência de IA mais eficiente aos programadores e utilizadores.
O ShirtAI permite a utilização gratuita e ilimitada do GPT-4, GPT-4o mais forte, GPT-4.1-mini e outros modelos com um clique no sítio Web oficial:www.lsshirtai.com
I. Visão geral do modelo: uma atualização global dos parâmetros para o posicionamento
O o3 e o o4-mini da OpenAI baseiam-se numa nova arquitetura e centram-se em cenários diferentes:
- o3: Como "versão completa" do modelo emblemático, centra-se no raciocínio avançado e na colaboração entre ferramentas, suporta o acesso a ferramentas completas (por exemplo, Python, navegação em rede, chamadas de função) e, pela primeira vez, realiza o "raciocínio visual integrado na cadeia de pensamento", que é adequado para a resolução de problemas complexos.
- o4-mini: um modelo leve e de elevado desempenho centrado em raciocínio rápido de alto nível e tarefas de código/visão, com uma excelente relação preço/desempenho, mantendo-se eficiente.
Em segundo lugar, a comparação do desempenho: capacidade multidimensional de esmagar o modelo antigo
1) Raciocínio intelectual: um aumento da exatidão possibilitado por uma ferramenta
Em concursos de matemática, problemas científicos e testes inter-curriculares, o o3 e o o4-mini apresentam um desempenho esmagador, especialmente quando lhes é permitido recorrer a ferramentas:
Conjuntos de dados / tarefas | o1 | o3-mini | o3 (sem ferramentas) | o3 (com Python) | o4-mini (sem ferramentas) | o4-mini (com Python) |
---|---|---|---|---|---|---|
Concurso de Matemática AIME 2024 (AC%) | 74.3 | 87.3 | 91.6 | 95.2 | 93.4 | 98.7 |
Concurso de Código Codeforces (ELO) | 1891 | 2073 | – | 2719 | – | 2073 |
Perguntas sobre a Ciência do Diamante GPQA (AC%) | 78 | 77 | 83.3 | – | 81.4 | – |
O Último Exame da Humanidade (AC%) | 13.4 | 20.3 | 20.3 | 24.9 | 14.28 | 17.7 |
Principais conclusões:
- A precisão do AIME melhorou de 91,6% para 95,2% depois de o3 chamar Python, e o Humanity's Last Exam melhorou a sua precisão em 24,9% com a cadeia de ferramentas.
- Embora o o4-mini seja um modelo leve, atingiu 93,41 TP3T (AIME) sem ferramentas, o que está próximo da versão com ferramentas do o3, e a relação preço/desempenho é excelente. O o4-mini-high resolveu um dos mais recentes problemas do Projeto Euler em 2 minutos e 55 segundos, mas não é um problema simples, apenas 15 pessoas o conseguem resolver em 30 minutos, e é um problema novo que surgiu há apenas alguns dias, o que é improvável que apareça no conjunto de treino do o4, mostrando que o o4-mini-high depende do "pensamento" para o resolver. Este é um problema novo que surgiu apenas há alguns dias e não pode ter aparecido no conjunto de treino do o4, o que sugere que o o4-mini-high se baseou no "pensamento" para o resolver.
2) Raciocínio visual multimodal: do "reconhecimento de imagens" ao "pensamento por imagens"
Pela primeira vez, o o3 e o o4-mini suportam a integração do raciocínio visual na cadeia de pensamento, ultrapassando largamente os modelos mais antigos em tarefas complexas de compreensão de imagens:
conjunto de dados | declaração de missão | o1 | o3 | o4-mini |
---|---|---|---|---|
MMMU (Matemática Visual Universitária) | Resolução integrada de problemas com fórmulas e gráficos (AC%) | 77.6 | 82.9 | 81.6 |
MathVista (matemática visual) | Raciocínio com imagens geométricas / funcionais (AC%) | 71.8 | 87.5 | 84.3 |
Raciocínio CharXiv | Compreensão de diagramas científicos (AC%) | 55.1 | 75.4 | 72 |
Importância da descoberta: o o3 pode "olhar para a imagem e pensar" como os seres humanos, concretizando a mudança de paradigma do "processamento de píxeis" para o "raciocínio de cenas". Um utilizador tirou uma fotografia casualmente a caminho do trabalho e pediu ao o3 para analisar a localização. Um utilizador tirou uma fotografia a caminho do trabalho e pediu à o3 para analisar a localização. Primeiro, fez zoom sobre a fotografia, analisou a informação-chave na fotografia, depois procurou páginas Web relacionadas para reduzir o âmbito da pesquisa passo a passo e, finalmente, forneceu a informação específica da localização.
3. capacidades de código e engenharia: a o3 é o programador de eleição
Nas tarefas de engenharia de software, o o3 lidera no acesso às ferramentas e na compreensão do código, enquanto o o4-mini é equilibrado em cenários ligeiros:
tarefa de código | norma | o1-alto | o3-mini | o3-alto | o4-mini-alto |
---|---|---|---|---|---|
Validação SWE-Bench (AC%) | Algoritmos / Conceção de sistemas | 48.9 | 69.1 | 69.1 | 68.1 |
Editor de código Aider (completo) | Reescrita global multilingue (%) | 66.7 | 81.3 | 81.3 | 64.4 |
SWE-Lancer Order Taking Revenue | Trabalhos em regime de freelance ($) | 118,000 | 177,000 | 236,000 | – |
Valor prático: o o3 tem uma média de 236.000 dólares por mês em tarefas reais de codificação, ultrapassando largamente o modelo antigo e tornando-se uma ferramenta essencial para o desenvolvimento de código a nível empresarial; o o4-mini é adequado para prototipagem rápida e depuração ligeira de código.

4. utilização e implementação de ferramentas: o3 Um novo paradigma para a construção de inteligências
o3 demonstra maior coerência de tarefas em cenários de colaboração de ferramentas, como o seguimento de comandos em várias rondas, a manipulação do browser e as chamadas de funções:
Tarefas instrumentais | norma | o1-alto | o3-mini | o3 (versão da ferramenta) | o4-mini (versão para ferramentas) |
---|---|---|---|---|---|
Escala MultiChallenge | Seguimento de comando multi-rotativo (AC%) | 28.3 | 44.93 | 56.51 | 42.99 |
Operações do navegador BrowseComp | Captação de informações (AC%) | 32.4 | 50.0 | 70.8 | 52.0 |
Chamadas de função do Tau-bench | Saída estruturada (AC%) | 49.7 | 51.5 | 57,6 (retalho) | 65,6 (retalho) |
Principais benefícios: A capacidade da o3 de operar autonomamente navegadores virtuais e chamar APIs para gerar resultados estruturados, como JSON de reservas de voos, fornece capacidades de nível comercial na automatização de processos complexos.
III. Parâmetros e preços: relação preço/desempenho totalmente optimizada
modelação | capacidade de raciocínio | tempo | Preço (Entrada/Saída / Milhares de fichas) | Entradas suportadas | janela de contexto |
---|---|---|---|---|---|
o1 | infra-estruturais | mais lento | $15-$60 | Texto / Imagem | 200,000 |
o3-mini | nível elevado | moderado | $1.1-$4.4 | cópias | 200,000 |
o4-mini | nível elevado | moderado | $1.1-$4.4 | Texto / Imagem | 200,000 |
o3 | supremo | mais lento | $10-$40 | Texto / Imagem | 200,000 |
o1-pro | profissões | mais lento | $150-$600 | Texto / Imagem | 200,000 |
Ajustes do núcleo: o3 tem um preço 1/3 inferior ao do o1 para uma relação preço/desempenho muito melhor; o4-mini tem o mesmo preço que o o3-mini, mas com suporte para entrada de imagens e melhor inferência.
Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.