Na feroz competição no domínio da inteligência artificial, a Google reescreveu mais uma vez as regras do jogo com inovação disruptiva. O recém-lançado Gemini 2.5 Flash não só mantém o potente desempenho do seu modelo principal, como também atinge o derradeiro equilíbrio entre custo e eficiência através da revolucionária "Arquitetura de Raciocínio Híbrido" e do mecanismo "Thinking on Budget". Este avanço marca a entrada formal do desenvolvimento de IA na era do "pensar a pedido", proporcionando às empresas e aos programadores uma flexibilidade e uma rentabilidade sem precedentes.
O ShirtAI permite a utilização gratuita e ilimitada do Gemini-2.0-flash, do Gemini-2.5-pro e de outros modelos, com um clique no sítio Web oficial:www.lsshirtai.com
I. Rampage de desempenho: redefinir os limites da codificação e do raciocínio
1. teste da placa Galton: desempenho espantoso que esmaga a OpenAI
O Gemini 2.5 Flash demonstrou uma proeza de cair o queixo no recente e muito debatido Teste de Simulação Física do Tabuleiro Galton. A tarefa exigia que o modelo simulasse com precisão a trajetória de uma pequena bola através de um tabuleiro de obstáculos com várias camadas e, por fim, apresentasse um resultado normalmente distribuído. Teste em curso:
-
-
- O Gemini 2.5 Flash reproduz na perfeição as leis da física em apenas 5 comandos, gerando uma animação suave e natural que corresponde perfeitamente às regras da física real.
- Os modelos da OpenAI, como o GPT-4o mini e o O3-mini, falharam devido à sua incapacidade de lidar com interações físicas complexas e até cometeram erros de baixo nível, como a sobreposição de bolhas e anomalias de distribuição.
- Jeff Dean, cientista-chefe da Google, elogiou pessoalmente os resultados do teste, chamando-lhe um "avanço sísmico no poder de codificação".
-
II. núcleo tecnológico: arquitetura de raciocínio híbrido e a revolução do "orçamento pensante
1. modelos de inferência híbridos: um duplo avanço em termos de desempenho e eficiência
A principal inovação do Gemini 2.5 Flash é a sua arquitetura de raciocínio híbrido, um modelo de computação dinâmico que equilibra a velocidade e a precisão do raciocínio. Ao contrário dos modelos tradicionais que pensam a toda a velocidade, o Gemini 2.5 Flash permite que os programadores atribuam de forma flexível o Thinking Budget, que é o número de tokens utilizados pelo modelo para raciocínio interno antes de gerar uma resposta, com base na complexidade da tarefa. Este mecanismo é quebrado por:
- Custo controlável: quando o pensamento está desativado, o custo de inferência desce para $0,6/milhão de fichas (1/6 dos modelos semelhantes), e o desempenho aproxima-se de Pro quando o orçamento de raciocínio mais elevado (24k fichas) está ativado.
- Adaptação dinâmica: o modelo ajusta automaticamente a profundidade do raciocínio em função da dificuldade da tarefa. Por exemplo, apenas algumas centenas de tokens são necessários para completar o raciocínio em problemas simples de matemática, enquanto dezenas de milhares de tokens podem ser consumidos para obter uma precisão extrema em análises científicas complexas.
2. teste de arena: esmagamento exaustivo de modelos semelhantes
Na classificação de arena da plataforma de avaliação de terceiros Imarena, o Gemini 2.5 Flash está em segundo lugar com uma pontuação Elo de 1392 em segundo lugar, empatado com modelos de topo como o GPT-4.5 e o Grok-3, e significativamente melhor do que o Claude 3.7 Sonnet (1340 pontos) e o DeepSeek R1 (1358 pontos). As suas áreas de força incluem:
- Geração de código: taxa de passagem única de 63,5% no teste LiveCodeBench V5 (próximo dos 70,6% do DeepSeek R1).
- Raciocínio matemático: na simulação do concurso de matemática AIME 2025, obteve 78,01 TP3T numa única tentativa que ultrapassa os 27,51 TP3T do Claude 3.7 Sonnet.
- Teste de Conhecimento: O Último Exame da Humanidade com 12.11 TP3T ficando atrás apenas do O4-mini (14.3%).
III Mania dos programadores: salto de eficiência e revolução nos custos
1. experiência de desenvolvimento rápido: do protótipo ao produto final em poucas linhas de código
Os programadores já estão a tirar partido da flexibilidade do Gemini 2.5 Flash para concluir projectos complexos:
-
- Simulação de física: o internauta @RameshR gera animações de placas de Galton normalmente distribuídas em apenas 5 comandos, enquanto o modelo OpenAI falha devido a falhas do motor de física.
- Desenvolvimento Web: as interfaces de imitação do YouTube e do Spotify criadas pelo programador @Taro Bushidō são elogiadas pela "restauração perfeita dos pixéis dos desenhos oficiais".
- Agentes de IA: crie agentes de protocolo MCP para aceder ao Airbnb e ao Google Maps com apenas 30 linhas de código Python.
2) Comparações de custos: uma "revolução preço/desempenho" na IA
A tabela abaixo compara visualmente a estratégia de preços do Gemini 2.5 Flash com outros modelos (com base em milhões de entradas e saídas de tokens):
modelação | Custo de entrada ($/milhão de tokens) | Custo de produção (raciocínio) | Custo de produção (raciocínio) |
---|---|---|---|
Gemini 2.5 Flash | $0.15 | $0.60 | $3.50 |
GPT-4o Mini | $0.10 | $1.10 | $4.40 |
Claude 3.7 Soneto | $3.00 | $15.00 | – |
DeepSeek R1 | $3.00 | $15.00 | – |
Nota: Com um rácio de entradas e saídas de 3:1, o custo combinado do Gemini 2.5 Flash é apenas 1/30 do Claude 3.7.
O lançamento do Gemini 2.5 Flash marca o início da passagem dos modelos de IA de "brinquedos de laboratório" para "ferramentas de produtividade". A sua arquitetura de inferência híbrida não só resolve a contradição entre o custo e o desempenho, como também indica a direção futura da evolução da IA: concretizar possibilidades infinitas com aritmética limitada. À medida que a Google continua a iterar (como o próximo plug-in de geração de vídeo), esta revolução rentável liderada pelo Gemini pode remodelar o panorama global do desenvolvimento da IA.
Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.