Claude重回巅峰,发布Claude 3.7 Sonnet与 Claude Code 碾压 GPT-o3、Grok3与Deepseek-r1

Detalhes do conteúdo

Num mundo em que a tecnologia e o conhecimento estão interligados, cada leitura é como uma aventura fantástica que nos dá uma sensação de sabedoria e inspira uma criatividade sem fim.

O Claude está de volta ao topo, lançando o Claude 3.7 Sonnet e o Claude Code para esmagar o GPT-o3, o Grok3 e o Deepseek-r1.

I. Introdução

Nos últimos anos, com o rápido desenvolvimento da tecnologia de inteligência artificial, a concorrência entre os principais modelos linguísticos intensificou-se. Desde as simples perguntas e respostas iniciais até aos actuais cenários de aplicações colaborativas multimodais e multitarefas, todos os fornecedores estão constantemente a atualizar os seus produtos. O Claude conseguiu regressar ao topo após um período de precipitação tecnológica e ajustes de otimização. Com uma otimização eficiente dos algoritmos, uma compreensão semântica profunda e uma capacidade flexível de multitarefas, o Claude lançou o Claude 3.7 Sonnet e o Claude Code, que esmagaram de forma abrangente o GPT-o3, o Grok3 e o Deepseek-r1 em todos os indicadores principais. Este documento analisará a posição de liderança do Claude através da comparação de dados e da apresentação de gráficos, e discutirá as suas amplas perspectivas no mercado futuro.

II. Comparação dos principais dados de desempenho e das suas principais actualizações

Para demonstrar mais visualmente as diferenças de desempenho entre os principais modelos, as comparações de dados entre Claude, GPT-4, Grok3 e Deepseek nas principais métricas de desempenho são listadas abaixo:

modelação	Número de participantes (milhares de milhões)	Correção (%)	Velocidade de raciocínio (ms)	Mandato de adaptabilidade	Satisfação dos utilizadores (%)
Claude	120	95	35	teu (honorífico)	92
GPT-4	175	90	45	médio a alto	88
Grok 3	100	85	40	médio	80
Pesquisa profunda	90	80	50	médio-baixo	75

Principais actualizações

Em 25 de fevereiro de 2025, a Anthropic lançou o marco Claude 3.7 Sonnet, o primeiro modelo de raciocínio híbrido do mundo. Esta tecnologia inovadora não só permite respostas instantâneas, como também mostra um raciocínio lógico profundo através do "pensamento visual". Os programadores podem até controlar com precisão a duração do raciocínio do modelo através de uma API, melhorando ainda mais a sua flexibilidade e facilidade de utilização. Ao mesmo tempo, a Anthropic também introduziu a ferramenta de linha de comando Claude Code, que revoluciona o processo de desenvolvimento, actuando como um "agente de colaboração de ponto final". A ferramenta suporta operações de pilha completa, como pesquisa de código, execuções de testes, commits do GitHub, etc. Testes reais mostram que a eficiência do desenvolvimento aumentou em 300%. Além disso, o Claude 3.7 Sonnet tem um bom desempenho em benchmarks como o SWE-bench e o TAU-bench, o que prova ainda mais o seu poderoso desempenho e fiabilidade.

1. alargar a mente: o modelo de raciocínio híbrido de Claude 3.7 Sonnet

Claude 3.7 O Sonnet é o primeiro modelo de raciocínio híbrido do mercado, destacando-se a capacidade de alternar livremente entre a resposta em tempo real e o raciocínio profundo. Esta conceção permite que o modelo ajuste automaticamente o seu tempo de raciocínio de acordo com os requisitos da tarefa, permitindo-lhe processar rapidamente consultas simples, bem como efetuar um raciocínio profundo em problemas complexos. Os utilizadores podem até controlar com precisão o tempo de raciocínio do modelo através da API, o que aumenta consideravelmente a flexibilidade dos cenários de aplicação.

No modo Extended Thinking, o Claude 3.7 Sonnet destaca-se em tarefas como matemática, física, seguimento de instruções e codificação. De acordo com dados oficiais do Anthropic, a sua precisão em tarefas de raciocínio de nível superior é tão elevada como78.2%O desempenho do Anthropic neste domínio excede os 77,01 TP3T do Deepseek-r1 e compete fortemente com os modelos mais recentes da OpenAI. Esta capacidade é possível graças à otimização da arquitetura do modelo Anthropic, que lhe permite "abrandar e pensar" quando necessário, melhorando assim a sua capacidade de resolver problemas complexos.

Para demonstrar mais visualmente as vantagens do Soneto de Claude 3.7 na expansão da mente, comparamos o seu desempenho com o GPT-o3, Grok3 e Deepseek-r1 em tarefas de raciocínio através da tabela seguinte:

modelação	Precisão da tarefa de raciocínio (%)	nota
Claude 3.7 Soneto	78.2	Expandir a mentalidade
GPT-o3	75.5	Modelo padrão
Grok3	76.8	Modo de otimização do raciocínio
Deepseek-r1	77.0	modo predefinido

analisadoClaude 3.7 O Sonnet, com o seu modelo de raciocínio híbrido, ficou cerca de 1-3 pontos percentuais à frente dos outros modelos na tarefa de raciocínio. Esta diferença pode parecer pequena, mas é suficiente para demonstrar a sua capacidade superior de esticar a mente em tarefas difíceis.

2. Claude Code: um assistente de programação inteligente para programadores

O Claude Code é a ferramenta de IA da Anthropic para programadores, concebida para melhorar a eficiência da programação através de meios inteligentes. As suas principais caraterísticas incluem:

Pesquisa e compreensão de códigosA capacidade de analisar e compreender automaticamente toda a base de código e localizar rapidamente o código relevante.
Modificação e otimização automáticasIdentificar erros no código e corrigi-los automaticamente, optimizando o desempenho.
teste automatizadoGerar e executar casos de teste para garantir a qualidade do código.
Integração com o GitHubSuporte para envio automático de código e push para simplificar o processo de versionamento.

Estas caraterísticas fazem do Claude Code não só uma ferramenta de geração de código, mas também um assistente de programação completo, que pode reduzir significativamente o trabalho repetitivo dos programadores e melhorar a eficiência do desenvolvimento. Os assistentes de programação existentes no mercado, como o GitHub Copilot, são poderosos, mas o Claude Code tem a vantagem em termos de automatização e profundidade de compreensão do código. A tabela abaixo compara as principais caraterísticas de ambos:

funcionalidade	Código Claude	Copiloto do GitHub
Pesquisa de código	adjuvante	Apoio parcial
modificação automática	adjuvante	Apoio parcial
teste automatizado	adjuvante	sem suporte
Integração com o GitHub	adjuvante	adjuvante
Compreensão do código	compreensão profunda	compreensão básica

3. melhoria das competências de programação: Claude 3.7 Excelência do soneto

Os dados de referência demonstram que a capacidade de programação é um dos principais indicadores da utilidade de um modelo de IA. O Claude 3.7 Sonnet tem um bom desempenho nos testes de referência para várias tarefas de programação, especialmente no teste de codificação SWE (Software Engineering), obtendo uma pontuação de **70%**, que é muito superior à de outros modelos. A tabela seguinte compara em pormenor o desempenho do Claude 3.7 Sonnet com o GPT-o3, Grok3 e Deepseek-r1 em tarefas de programação

modelação	Teste de codificação SWE (%)	LiveCodeBench (%)	nota
Claude 3.7 Soneto	70.0	65.9	modelo de inferência misto
GPT-o3	50.0	60.0	Modelo padrão
Grok3	55.0	62.5	Modo de otimização do raciocínio
Deepseek-r1	60.0	65.0	modo predefinido

analisadoO Claude 3.7 Sonnet está 10-20 pontos percentuais à frente dos outros modelos no teste de codificação SWE, mostrando a sua esmagadora superioridade em termos de poder de programação. Mesmo no teste LiveCodeBench, o seu desempenho está próximo do Deepseek-r1 na posição de topo.

III. valor de aplicação prática e seus casos

1. custos de formação e rapidez de raciocínio

O custo de formação e a velocidade de inferência de um modelo de IA afectam diretamente a sua aplicação comercial. O deepseek-r1 é conhecido pelo seu baixo custo, mas o Claude 3.7 Sonnet domina a velocidade de inferência e a experiência do utilizador. A tabela seguinte compara os dados relacionados com os quatro modelos em pormenor:

modelação	Custo da formação (milhões de horas de GPU)	Velocidade de raciocínio (tokens/seg.)	Classificação da experiência do utilizador (1-10)
Claude 3.7 Soneto	150	120	9.0
GPT-o3	200	100	8.5
Grok3	180	110	8.7
Deepseek-r1	100	90	8.0

analisadoO Deepseek-r1 é o mais vantajoso em termos de custo de formação, mas o Claude 3.7 Sonnet ganha com maior velocidade de inferência (120 tokens/seg) e pontuação de experiência do utilizador (9,0) para cenários que exigem uma resposta rápida.

2. experiência do utilizador e facilidade de utilização

A API do Claude 3.7 Sonnet foi concebida para ser limpa e fácil de integrar, enquanto o Claude Code fornece uma interface intuitiva e uma integração perfeita com o GitHub, permitindo que os programadores comecem a trabalhar rapidamente. Este foco na experiência do utilizador torna a série Claude ainda mais popular em aplicações do mundo real!

Domínios de aplicação	Satisfação do cliente (%)	Satisfação GPT-4 (%)	Grok3 Satisfação (%)	Satisfação do Deepseek (%)
Serviço ao cliente da empresa	93	89	83	78
Geração automatizada de cópias	91	87	80	76
análise de dados	94	90	82	77
Consultoria médica e sanitária	92	88	84	79

3. processos

1. Sugestão: Crie um ficheiro HTML com CSS e JavaScript para gerar um cartão meteorológico animado. O cartão deve representar visualmente as seguintes condições climatéricas com diferentes animações: Vento: (por exemplo, nuvens em movimento, árvores a balançar ou linhas de vento) Chuva: (por exemplo, gotas de chuva a cair, formação de poças) Sol: (por exemplo, raios de luz brilhantes, fundos luminosos) Neve: (por exemplo, flocos de neve a cair, neve acumulada) Apresente todos os cartões climatéricos lado a lado O cartão deve ter um fundo escuro. Forneça todo o código HTML, CSS e JavaScript neste ficheiro O JavaScript deve incluir uma forma de alternar entre as condições meteorológicas (por exemplo, uma função ou um conjunto de botões) para demonstrar a animação de cada condição meteorológica.

2. dicas:Crie algo que eu possa colar no p5js e ele vai surpreender-me com o seu engenho para criar algo que possa chamar o painel de controlo de uma nave espacial interestelar num futuro distante.

3. Sugestão: Escrever todo o código para um jogo da cobra para o Apple Watch, onde:
* :: Usa o teu batimento cardíaco para determinar a velocidade da cobra, precisamos de usar o HealthKit para o fazer (e diz-me como o configurar)
* Deslizar o dedo pelo ecrã para mover a serpente para cima, para baixo, para a esquerda e para a direita
* As paredes não te matam, só apareces do outro lado, por isso a única forma de morrer é bater na tua cobra, como na versão Nokia
* :: Escrever todo o código e delinear cada ficheiro usando gráficos como a versão Nokia, com o aspeto verde camuflado que esses ecrãs têm, para que eu possa copiar e colar e executá-lo

IV. Como utilizar

Como inscrever-se no Claude - tutorial simples
1. Encontra uma forma de te preparares. Linhas IP nos EUA ou no Reino Unido (Atualmente, o Claude só está disponível em países selecionados)
2. Ir para "Claude.ai Sítio Web oficial"Registar uma conta
3. Email Registar contaQualquer endereço de correio eletrónico comum pode ser registado, mas é necessário preencher manualmente o código de verificação do correio eletrónico; recomendamos a utilização da conta Google para iniciar sessão diretamente (é mais prático não ter de preencher o código de verificação à mão).
4. Em seguida, tem de verificar o seu número de telemóvel: São necessários números de telemóvel no estrangeiro e podemos "Com a ajuda do sítio Web Sms Activate"Comprar um número de telemóvel estrangeiro temporário para autenticação a um preço muito baixo com suporte de língua chinesa / suporte Alipay.
  
  Ir para SMS-Ativar
5. Registo Login SMS-Ativar Depois disso, toque no canto superior direito + Carregue a sua conta com "Alipay", $5 ou $10 USD é normalmente suficiente (Mínimo $2 / É bom deixar algum saldo para registar ChatGPT ou alguns outros serviços de internet mais tarde).
6. Após o carregamento.Pesquisar em SMS-Activate ClaudeEm seguida, pode escolher diferentes países e regiões para comprar o número de telemóvel, o método de operação é o seguinte, após a compra bem sucedida, pode copiar para o número de telemóvel temporário.
7. Preencha o número de telemóvel que acabou de obter no sítio Web oficial da Claude, envie o código de verificação e aguarde um pouco no SMS-Ativar Poderá receber uma mensagem de texto de verificação.
8. Depois não há qualquer dificuldade, siga o processo do passo seguinte que o registo é bem sucedido.
9. Se ainda quiserActualize a sua inscrição no Claude Pro para utilizar os modelos mais recentes do Claude 3.7.Se quiser pagar com um cartão de crédito virtual, pode fazê-lo.
Uma vez que a Claude lacra frequentemente o número e o processo de recarga é complicado, pode contactar a nossa equipa de profissionais para recarregar (WeChat: 18992125618), ou utilizar este produto! 1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native Vai ser mais fácil.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

categorias.

Boletim informativo

espaço publicitário

Testemunhe a super magia da IA em conjunto!

Abrace o seu assistente de IA e aumente a sua produtividade com apenas um clique!