Detalhes do conteúdo

Num mundo em que a tecnologia e o conhecimento estão interligados, cada leitura é como uma aventura fantástica que nos dá uma sensação de sabedoria e inspira uma criatividade sem fim.

A OpenAI apresenta os mais recentes modelos de inferência o3 e o4-mini: saltos de desempenho e inovação de paradigma

Em 17 de abril de 2025, a OpenAI lançou oficialmente os novos modelos de inferência o3 (versão completa) e o4-mini numa transmissão ao vivo durante a noite, substituindo os antigos modelos anteriores, como o1 e o3-mini. Esta atualização consegue melhorias significativas nas áreas de inferência de conhecimentos, processamento multimodal e capacidades de código, ao mesmo tempo que optimiza a estratégia de preços para proporcionar uma experiência de IA mais eficiente aos programadores e utilizadores.
O ShirtAI permite a utilização gratuita e ilimitada do GPT-4, GPT-4o mais forte, GPT-4.1-mini e outros modelos com um clique no sítio Web oficial:www.lsshirtai.com

 

I. Visão geral do modelo: uma atualização global dos parâmetros para o posicionamento

O o3 e o o4-mini da OpenAI baseiam-se numa nova arquitetura e centram-se em cenários diferentes:
  • o3: Como "versão completa" do modelo emblemático, centra-se no raciocínio avançado e na colaboração entre ferramentas, suporta o acesso a ferramentas completas (por exemplo, Python, navegação em rede, chamadas de função) e, pela primeira vez, realiza o "raciocínio visual integrado na cadeia de pensamento", que é adequado para a resolução de problemas complexos.
  • o4-mini: um modelo leve e de elevado desempenho centrado em raciocínio rápido de alto nível e tarefas de código/visão, com uma excelente relação preço/desempenho, mantendo-se eficiente.

Em segundo lugar, a comparação do desempenho: capacidade multidimensional de esmagar o modelo antigo

1) Raciocínio intelectual: um aumento da exatidão possibilitado por uma ferramenta

Em concursos de matemática, problemas científicos e testes inter-curriculares, o o3 e o o4-mini apresentam um desempenho esmagador, especialmente quando lhes é permitido recorrer a ferramentas:
Conjuntos de dados / tarefas o1 o3-mini o3 (sem ferramentas) o3 (com Python) o4-mini (sem ferramentas) o4-mini (com Python)
Concurso de Matemática AIME 2024 (AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Concurso de Código Codeforces (ELO) 1891 2073 2719 2073
Perguntas sobre a Ciência do Diamante GPQA (AC%) 78 77 83.3 81.4
O Último Exame da Humanidade (AC%) 13.4 20.3 20.3 24.9 14.28 17.7
Principais conclusões:
  • A precisão do AIME melhorou de 91,6% para 95,2% depois de o3 chamar Python, e o Humanity's Last Exam melhorou a sua precisão em 24,9% com a cadeia de ferramentas.
  • Embora o o4-mini seja um modelo leve, atingiu 93,41 TP3T (AIME) sem ferramentas, o que está próximo da versão com ferramentas do o3, e a relação preço/desempenho é excelente. O o4-mini-high resolveu um dos mais recentes problemas do Projeto Euler em 2 minutos e 55 segundos, mas não é um problema simples, apenas 15 pessoas o conseguem resolver em 30 minutos, e é um problema novo que surgiu há apenas alguns dias, o que é improvável que apareça no conjunto de treino do o4, mostrando que o o4-mini-high depende do "pensamento" para o resolver. Este é um problema novo que surgiu apenas há alguns dias e não pode ter aparecido no conjunto de treino do o4, o que sugere que o o4-mini-high se baseou no "pensamento" para o resolver.

 

2) Raciocínio visual multimodal: do "reconhecimento de imagens" ao "pensamento por imagens"

Pela primeira vez, o o3 e o o4-mini suportam a integração do raciocínio visual na cadeia de pensamento, ultrapassando largamente os modelos mais antigos em tarefas complexas de compreensão de imagens:
conjunto de dados declaração de missão o1 o3 o4-mini
MMMU (Matemática Visual Universitária) Resolução integrada de problemas com fórmulas e gráficos (AC%) 77.6 82.9 81.6
MathVista (matemática visual) Raciocínio com imagens geométricas / funcionais (AC%) 71.8 87.5 84.3
Raciocínio CharXiv Compreensão de diagramas científicos (AC%) 55.1 75.4 72
Importância da descoberta: o o3 pode "olhar para a imagem e pensar" como os seres humanos, concretizando a mudança de paradigma do "processamento de píxeis" para o "raciocínio de cenas". Um utilizador tirou uma fotografia casualmente a caminho do trabalho e pediu ao o3 para analisar a localização. Um utilizador tirou uma fotografia a caminho do trabalho e pediu à o3 para analisar a localização. Primeiro, fez zoom sobre a fotografia, analisou a informação-chave na fotografia, depois procurou páginas Web relacionadas para reduzir o âmbito da pesquisa passo a passo e, finalmente, forneceu a informação específica da localização.

 

3. capacidades de código e engenharia: a o3 é o programador de eleição

Nas tarefas de engenharia de software, o o3 lidera no acesso às ferramentas e na compreensão do código, enquanto o o4-mini é equilibrado em cenários ligeiros:
tarefa de código norma o1-alto o3-mini o3-alto o4-mini-alto
Validação SWE-Bench (AC%) Algoritmos / Conceção de sistemas 48.9 69.1 69.1 68.1
Editor de código Aider (completo) Reescrita global multilingue (%) 66.7 81.3 81.3 64.4
SWE-Lancer Order Taking Revenue Trabalhos em regime de freelance ($) 118,000 177,000 236,000
Valor prático: o o3 tem uma média de 236.000 dólares por mês em tarefas reais de codificação, ultrapassando largamente o modelo antigo e tornando-se uma ferramenta essencial para o desenvolvimento de código a nível empresarial; o o4-mini é adequado para prototipagem rápida e depuração ligeira de código.

 

 

 

 

4. utilização e implementação de ferramentas: o3 Um novo paradigma para a construção de inteligências

o3 demonstra maior coerência de tarefas em cenários de colaboração de ferramentas, como o seguimento de comandos em várias rondas, a manipulação do browser e as chamadas de funções:
Tarefas instrumentais norma o1-alto o3-mini o3 (versão da ferramenta) o4-mini (versão para ferramentas)
Escala MultiChallenge Seguimento de comando multi-rotativo (AC%) 28.3 44.93 56.51 42.99
Operações do navegador BrowseComp Captação de informações (AC%) 32.4 50.0 70.8 52.0
Chamadas de função do Tau-bench Saída estruturada (AC%) 49.7 51.5 57,6 (retalho) 65,6 (retalho)
Principais benefícios: A capacidade da o3 de operar autonomamente navegadores virtuais e chamar APIs para gerar resultados estruturados, como JSON de reservas de voos, fornece capacidades de nível comercial na automatização de processos complexos.

 

III. Parâmetros e preços: relação preço/desempenho totalmente optimizada

modelação capacidade de raciocínio tempo Preço (Entrada/Saída / Milhares de fichas) Entradas suportadas janela de contexto
o1 infra-estruturais mais lento $15-$60 Texto / Imagem 200,000
o3-mini nível elevado moderado $1.1-$4.4 cópias 200,000
o4-mini nível elevado moderado $1.1-$4.4 Texto / Imagem 200,000
o3 supremo mais lento $10-$40 Texto / Imagem 200,000
o1-pro profissões mais lento $150-$600 Texto / Imagem 200,000
Ajustes do núcleo: o3 tem um preço 1/3 inferior ao do o1 para uma relação preço/desempenho muito melhor; o4-mini tem o mesmo preço que o o3-mini, mas com suporte para entrada de imagens e melhor inferência.

Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.

Para mais produtos, consultar

Ver mais em

ShirtAI - Inteligência penetrante O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge) Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

espaço publicitário

Testemunhe a super magia da IA em conjunto!

Abrace o seu assistente de IA e aumente a sua produtividade com apenas um clique!