OpenAI 推出最新推理模型 o3 和 o4-mini：性能跃升与范式革新

Detalhes do conteúdo

Num mundo em que a tecnologia e o conhecimento estão interligados, cada leitura é como uma aventura fantástica que nos dá uma sensação de sabedoria e inspira uma criatividade sem fim.

A OpenAI apresenta os mais recentes modelos de inferência o3 e o4-mini: saltos de desempenho e inovação de paradigma

Em 17 de abril de 2025, a OpenAI lançou oficialmente os novos modelos de inferência o3 (versão completa) e o4-mini numa transmissão ao vivo durante a noite, substituindo os antigos modelos anteriores, como o1 e o3-mini. Esta atualização consegue melhorias significativas nas áreas de inferência de conhecimentos, processamento multimodal e capacidades de código, ao mesmo tempo que optimiza a estratégia de preços para proporcionar uma experiência de IA mais eficiente aos programadores e utilizadores.

O ShirtAI permite a utilização gratuita e ilimitada do GPT-4, GPT-4o mais forte, GPT-4.1-mini e outros modelos com um clique no sítio Web oficial:www.lsshirtai.com

I. Visão geral do modelo: uma atualização global dos parâmetros para o posicionamento

O o3 e o o4-mini da OpenAI baseiam-se numa nova arquitetura e centram-se em cenários diferentes:

o3: Como "versão completa" do modelo emblemático, centra-se no raciocínio avançado e na colaboração entre ferramentas, suporta o acesso a ferramentas completas (por exemplo, Python, navegação em rede, chamadas de função) e, pela primeira vez, realiza o "raciocínio visual integrado na cadeia de pensamento", que é adequado para a resolução de problemas complexos.
o4-mini: um modelo leve e de elevado desempenho centrado em raciocínio rápido de alto nível e tarefas de código/visão, com uma excelente relação preço/desempenho, mantendo-se eficiente.

Em segundo lugar, a comparação do desempenho: capacidade multidimensional de esmagar o modelo antigo

1) Raciocínio intelectual: um aumento da exatidão possibilitado por uma ferramenta

Em concursos de matemática, problemas científicos e testes inter-curriculares, o o3 e o o4-mini apresentam um desempenho esmagador, especialmente quando lhes é permitido recorrer a ferramentas:

Conjuntos de dados / tarefas	o1	o3-mini	o3 (sem ferramentas)	o3 (com Python)	o4-mini (sem ferramentas)	o4-mini (com Python)
Concurso de Matemática AIME 2024 (AC%)	74.3	87.3	91.6	95.2	93.4	98.7
Concurso de Código Codeforces (ELO)	1891	2073	–	2719	–	2073
Perguntas sobre a Ciência do Diamante GPQA (AC%)	78	77	83.3	–	81.4	–
O Último Exame da Humanidade (AC%)	13.4	20.3	20.3	24.9	14.28	17.7

Principais conclusões:

A precisão do AIME melhorou de 91,6% para 95,2% depois de o3 chamar Python, e o Humanity's Last Exam melhorou a sua precisão em 24,9% com a cadeia de ferramentas.
Embora o o4-mini seja um modelo leve, atingiu 93,41 TP3T (AIME) sem ferramentas, o que está próximo da versão com ferramentas do o3, e a relação preço/desempenho é excelente. O o4-mini-high resolveu um dos mais recentes problemas do Projeto Euler em 2 minutos e 55 segundos, mas não é um problema simples, apenas 15 pessoas o conseguem resolver em 30 minutos, e é um problema novo que surgiu há apenas alguns dias, o que é improvável que apareça no conjunto de treino do o4, mostrando que o o4-mini-high depende do "pensamento" para o resolver. Este é um problema novo que surgiu apenas há alguns dias e não pode ter aparecido no conjunto de treino do o4, o que sugere que o o4-mini-high se baseou no "pensamento" para o resolver.

2) Raciocínio visual multimodal: do "reconhecimento de imagens" ao "pensamento por imagens"

Pela primeira vez, o o3 e o o4-mini suportam a integração do raciocínio visual na cadeia de pensamento, ultrapassando largamente os modelos mais antigos em tarefas complexas de compreensão de imagens:

conjunto de dados	declaração de missão	o1	o3	o4-mini
MMMU (Matemática Visual Universitária)	Resolução integrada de problemas com fórmulas e gráficos (AC%)	77.6	82.9	81.6
MathVista (matemática visual)	Raciocínio com imagens geométricas / funcionais (AC%)	71.8	87.5	84.3
Raciocínio CharXiv	Compreensão de diagramas científicos (AC%)	55.1	75.4	72

Importância da descoberta: o o3 pode "olhar para a imagem e pensar" como os seres humanos, concretizando a mudança de paradigma do "processamento de píxeis" para o "raciocínio de cenas". Um utilizador tirou uma fotografia casualmente a caminho do trabalho e pediu ao o3 para analisar a localização. Um utilizador tirou uma fotografia a caminho do trabalho e pediu à o3 para analisar a localização. Primeiro, fez zoom sobre a fotografia, analisou a informação-chave na fotografia, depois procurou páginas Web relacionadas para reduzir o âmbito da pesquisa passo a passo e, finalmente, forneceu a informação específica da localização.

3. capacidades de código e engenharia: a o3 é o programador de eleição

Nas tarefas de engenharia de software, o o3 lidera no acesso às ferramentas e na compreensão do código, enquanto o o4-mini é equilibrado em cenários ligeiros:

tarefa de código	norma	o1-alto	o3-mini	o3-alto	o4-mini-alto
Validação SWE-Bench (AC%)	Algoritmos / Conceção de sistemas	48.9	69.1	69.1	68.1
Editor de código Aider (completo)	Reescrita global multilingue (%)	66.7	81.3	81.3	64.4
SWE-Lancer Order Taking Revenue	Trabalhos em regime de freelance ($)	118,000	177,000	236,000	–

Valor prático: o o3 tem uma média de 236.000 dólares por mês em tarefas reais de codificação, ultrapassando largamente o modelo antigo e tornando-se uma ferramenta essencial para o desenvolvimento de código a nível empresarial; o o4-mini é adequado para prototipagem rápida e depuração ligeira de código.

4. utilização e implementação de ferramentas: o3 Um novo paradigma para a construção de inteligências

o3 demonstra maior coerência de tarefas em cenários de colaboração de ferramentas, como o seguimento de comandos em várias rondas, a manipulação do browser e as chamadas de funções:

Tarefas instrumentais	norma	o1-alto	o3-mini	o3 (versão da ferramenta)	o4-mini (versão para ferramentas)
Escala MultiChallenge	Seguimento de comando multi-rotativo (AC%)	28.3	44.93	56.51	42.99
Operações do navegador BrowseComp	Captação de informações (AC%)	32.4	50.0	70.8	52.0
Chamadas de função do Tau-bench	Saída estruturada (AC%)	49.7	51.5	57,6 (retalho)	65,6 (retalho)

Principais benefícios: A capacidade da o3 de operar autonomamente navegadores virtuais e chamar APIs para gerar resultados estruturados, como JSON de reservas de voos, fornece capacidades de nível comercial na automatização de processos complexos.

III. Parâmetros e preços: relação preço/desempenho totalmente optimizada

modelação	capacidade de raciocínio	tempo	Preço (Entrada/Saída / Milhares de fichas)	Entradas suportadas	janela de contexto
o1	infra-estruturais	mais lento	$15-$60	Texto / Imagem	200,000
o3-mini	nível elevado	moderado	$1.1-$4.4	cópias	200,000
o4-mini	nível elevado	moderado	$1.1-$4.4	Texto / Imagem	200,000
o3	supremo	mais lento	$10-$40	Texto / Imagem	200,000
o1-pro	profissões	mais lento	$150-$600	Texto / Imagem	200,000

Ajustes do núcleo: o3 tem um preço 1/3 inferior ao do o1 para uma relação preço/desempenho muito melhor; o4-mini tem o mesmo preço que o o3-mini, mas com suporte para entrada de imagens e melhor inferência.

Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

categorias.

Boletim informativo

espaço publicitário

Testemunhe a super magia da IA em conjunto!

Abrace o seu assistente de IA e aumente a sua produtividade com apenas um clique!