O novo juggernaut de código aberto da NVIDIA: uma revolução na eficiência de 671 mil milhões para 253 mil milhões de parâmetros
Na era atual de rápido desenvolvimento de grandes modelos de IA, a NVIDIA está mais uma vez a fazer ondas com as suas proezas tecnológicas. Recentemente, a NVIDIA lançou a série de modelos Llama-Nemotron, que rapidamente ascendeu ao topo dos modelos de código aberto com uma eficiência e desempenho surpreendentes, ultrapassando mesmo o DeepSeek-R1, que tem um número muito maior de parâmetros, numa série de referências importantes.

A série Llama-Nemotron contém três modelos:
- LN-Nano (8B)Miniaturas eficientes concebidas para dispositivos periféricos e aplicações móveis
- LN-Super (49B)Um modelo de gama média que equilibra desempenho e eficiência
- LN-Ultra (253B)Modelo de inferência emblemático concebido para tarefas complexas
O mais surpreendente é que o LN-Ultra supera o DeepSeek-R1 em vários benchmarks importantes, como GPQA-Diamond (76,01 vs. 71,5), IFEval (89,45 vs. 83,3) e LiveCodeBench (66,31), com apenas 253 mil milhões de parâmetros (cerca de um terço dos 671 mil milhões de parâmetros do DeepSeek-R1). Em benchmarks, incluindo GPQA-Diamond (76,01 vs. 71,31), IFEval (8,45 vs. 71,45) e LiveCodeBench (66,31), o LN-Ultra supera o DeepSeek-R1 em todos os aspectos e, mais importante, o LN-Ultra é executado de forma eficiente em um único nó 8xH100, enquanto o DeepSeek-R1 requer hardware 8xH200, o que significa que não só tem melhor desempenho, mas também tem uma taxa de transferência de inferência mais alta e um limite mais baixo para implantação.

De acordo com o Índice de Inteligência Analítica Artificial, a partir de abril de 2025, o Llama-Nemotron-Ultra foi reconhecido como o modelo de código aberto "mais inteligente" disponível. Esta série de modelos, todos ao abrigo de licenças de fonte aberta favoráveis às empresas, a Licença de Modelo Aberto NVIDIA e a Licença Comunitária Llama, permite que as empresas os utilizem e modifiquem livremente, o que irá, sem dúvida, acelerar a popularidade da tecnologia de IA e a inovação das aplicações.
Formação de modelos revelada: um processo de construção em cinco fases para 140 000 horas H100
A NVIDIA revelou o processo de construção em cinco fases da família de modelos Llama-Nemotron num relatório técnico, mostrando todos os pormenores técnicos, desde a otimização da arquitetura à aprendizagem por reforço.
Fase 1: Pesquisa de arquitetura neural com fusão FFN
A equipa começou por otimizar profundamente a arquitetura original baseada no Llama 3.1 utilizando uma estrutura de Pesquisa de Arquitetura Neural (NAS) chamada Puzzle. As variações foram implementadas através da construção de uma biblioteca de módulos transformadores alternativos:
- Mecanismo de atenção seletivamente removido para reduzir a computação e o consumo de memória cache KV
- Dimensões variáveis de FFN para compressão de modelos em diferentes granularidades

Particularmente inovadora é a tecnologia FFN Fusion (FFN Fusion): quando blocos FFN contínuos aparecem no modelo depois de o NAS remover algumas das camadas de atenção, a FFN Fusion substitui estas estruturas por menos camadas FFN executáveis em paralelo, mas mais largas, o que melhora significativamente a eficiência computacional num ambiente multi-GPU.
Fase 2: Destilação de conhecimentos e pré-formação contínua
Após a otimização da arquitetura, a equipa realizou uma destilação de conhecimentos em grande escala com pré-treino contínuo para recuperar e melhorar o desempenho do modelo:
- O LN-Super treina 40 mil milhões de tokens utilizando o conjunto de dados Distillation Mix
- O LN-Ultra começa por treinar o mesmo conjunto de dados para 65 mil milhões de tokens e depois continua a treinar 88 mil milhões de tokens no conjunto de dados da fase 4 do Nemotron-H

Fase III: Síntese de dados para monitorizar a afinação
A fase de afinação supervisionada utiliza uma metodologia inovadora de formação de dados sintéticos que constrói cuidadosamente conjuntos de dados contendo amostras inferenciais e não inferenciais:
- Exemplo de raciocínio: "Pensamento pormenorizado sobre" adicionado ao comando do sistema.
- Amostras sem raciocínio: utilização de "pensamento pormenorizado desligado"
Esta conceção permite que o modelo alterne dinamicamente os comportamentos de inferência de acordo com o conteúdo da pista, lançando as bases para a função de "troca de inferência".
Fase IV: Formação intensiva e maciça em matéria de aprendizagem
Esta fase é fundamental para que o LN-Ultra ultrapasse o DeepSeek-R1. A equipa utilizou o mesmo algoritmo Grouped Relative Policy Optimisation (GRPO) que o DeepSeek-R1, e a conceção inovadora do processo de formação incluiu:
- Incentivos: incentivos à exatidão (com base na correspondência de respostas padrão) e incentivos ao formato (para forçar a utilização de etiquetas específicas)
- Triagem de dados: as amostras simples com uma taxa de aprovação ≥75% foram pré-censuradas
- Formação em curso: atribuição progressiva de lotes com base na taxa de aprovação, com transição gradual de amostras fáceis para amostras difíceis
Todo o processo de formação consome cerca de 140.000 horas de GPU H100, utiliza 72 nós (8 GPUs H100 por nó) e emprega a precisão FP8 na fase de geração e a precisão BF16 na fase de formação, que é uma combinação de técnicas que permite ao LN-Ultra obter melhorias significativas de precisão no conjunto de dados GPQA-Diamond.

Fase 5: Alinhamento de comandos e otimização das preferências humanas
Na fase final, foi realizada uma breve sessão de aprendizagem por reforço, centrada na otimização das capacidades de seguimento de comandos do modelo e no alinhamento das preferências humanas. A equipa utilizou a tecnologia RLHF para melhorar a capacidade de ajuda geral do modelo e o desempenho do chat, mantendo a sua capacidade em áreas especializadas como a matemática e as ciências. Os resultados mostraram que o LN-Super alinhado obteve 88,3 pontos no teste Arena Hard, superando modelos proprietários como o Claude 3.5 Sonnet e o GPT-4o.

Inovação revolucionária: Funcionalidade de comutação de inferências e otimização da sensibilização do hardware
Uma das maiores inovações da série Llama-Nemotron é a função de comutação de raciocínio, que permite ao utilizador alternar dinamicamente entre os dois modos, bastando acrescentar "Pensamento detalhado ligado/desligado" ao prompt do sistema:
- Modo de conversação padrãoResponder rapidamente aos pedidos de informação diários com respostas diretas
- modelo de inferência profundaRaciocínio complexo em várias etapas, demonstrando um processo de pensamento completo
Esta conceção resolve um dos principais problemas dos actuais modelos de IA - os programadores não precisam de manter modelos com diferentes arquitecturas e podem ajustar de forma flexível os comportamentos dos modelos de acordo com a procura. No espaço global de código aberto da IA, esta é a primeira família de modelos a implementar esta funcionalidade.
Ao nível da otimização do hardware, a série Nemotron foi submetida a uma profunda otimização consciente do hardware:
- Apoio à precisãoBF16 é utilizado na fase de formação, FP8 é utilizado na fase de geração (o que permite um aumento de velocidade de 1,8x) e o estado do optimizador é mantido em FP32
- Geração de precisão FP8O investigador desenvolveu um modelo de geração de precisão FP8 em linha que suporta a estrutura vLLM, com um débito de geração de até 32 tokens/s por prompt numa única GPU.
- Carregador de pesos vLLM personalizadoBF16: conversão de pesos BF16 para o formato FP8 em tempo de execução
Com estas optimizações, o LN-Ultra atinge um desempenho 4x superior em termos de rendimento de inferência do que o DeepSeek-R1, mantendo uma precisão superior.

Comparação de desempenho: desfazendo o mito de uma relação linear entre o número de parâmetros e o desempenho
Através de testes comparativos, a família de modelos Llama-Nemotron demonstra um desempenho superior para além da sua escala paramétrica:
modelação | GPQA-Diamante | IFEval | LiveCodeBench | Arena Hard |
---|---|---|---|---|
LN-Ultra (253B) | 76.01 | 89.45 | 66.31 | 85.2 |
Ver Profundidade-R1 | 71.5 | 83.3 | – | 81.7 |
Lhama 3.1-405B | 70.7 | 88.5 | 63.3 | 82.4 |
Mesmo o LN-Super mais pequeno (49B) teve um bom desempenho, alcançando uma pontuação elevada de 88,3 no teste Arena Hard, superando modelos proprietários como o Claude 3.5 Sonnet e o GPT-4o-2024-05-13, e superando modelos de código aberto muito maiores.
Mais notavelmente, na tarefa JudgeBench fora da distribuição (distinguindo entre respostas de alta qualidade e de baixa qualidade), o LN-Ultra torna-se o modelo de código aberto com melhor desempenho, superando significativamente o DeepSeek-R1, e perdendo apenas para o modelo proprietário o3-mini(high). Esta é uma boa prova da boa capacidade de generalização do modelo.
O novo cenário de código aberto: o início da era da eficiência em primeiro lugar
O lançamento da série Llama-Nemotron marca uma nova fase de desenvolvimento da IA que dá prioridade à eficiência e tem um impacto no sector de muitas formas:
- Quebrar as barreiras dos parâmetrosPara superar os modelos maiores numa escala mais pequena e desafiar a sabedoria convencional de que "maior é melhor".
- Reduzir o limiar de implantaçãoDesign arquitetónico eficiente para tornar as implementações de modelos de grandes dimensões acessíveis a mais empresas
- Acelerar a inovação tecnológicaUma estratégia de fonte totalmente aberta acelerará a difusão da tecnologia e da inovação da IA
- Promover a investigação sobre a eficiência: motivar mais investigadores a explorar os limites de eficiência dos grandes modelos
À medida que a corrida à IA entra numa era em que a eficiência é rei, uma série de inovações tornadas públicas pela série Llama-Nemotron da NVIDIA - desde os interruptores de inferência dinâmica à otimização com reconhecimento de hardware, e desde o treino de dados sintéticos à aprendizagem por reforço em grande escala - estão preparadas para influenciar a direção futura dos grandes modelos.
A importância desta revelação tecnológica reside não só no nascimento de uma nova geração de modelos de elevada eficiência, mas também no estabelecimento de uma nova referência técnica para toda a indústria de IA, que promove a evolução contínua da tecnologia de IA no sentido de uma maior praticidade e universalidade. Com o apoio de hardware de nova geração, como a futura GPU B100, é provável que esta série de modelos seja apenas o início da revolução da eficiência.
Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.