Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

NVIDIA Llama-Nemotron: el nuevo rey del código abierto más allá de DeepSeek-R1

El nuevo monstruo de código abierto de NVIDIA: una revolución en eficiencia de 671.000 millones a 253.000 millones de parámetros

En la era actual de rápido desarrollo de grandes modelos de IA, NVIDIA vuelve a causar sensación con su destreza tecnológica. Recientemente, NVIDIA ha lanzado la serie de modelos Llama-Nemotron, que se han colocado rápidamente a la cabeza de los modelos de código abierto con una eficiencia y un rendimiento asombrosos, superando incluso a DeepSeek-R1, que tiene un número mucho mayor de parámetros, en una serie de pruebas de referencia clave.

La serie Llama-Nemotron consta de tres modelos:

  • LN-Nano (8B)Eficacia de las miniaturas diseñadas para dispositivos periféricos y aplicaciones móviles
  • LN-Super (49B): Un modelo de gama media que equilibra rendimiento y eficiencia
  • LN-Ultra (253B)Modelo emblemático de inferencia diseñado para tareas complejas

Lo más sorprendente es que LN-Ultra, con sólo 253.000 millones de parámetros (aproximadamente un tercio de los 671.000 millones de parámetros de DeepSeek-R1), supera a DeepSeek-R1 en una serie de pruebas clave, como GPQA-Diamond (76,01 frente a 71,5 puntos), IFEval (89,45 frente a 83,3 puntos) y LiveCodeBench (66,31 puntos). En las pruebas comparativas, como GPQA-Diamond (76,01 frente a 71,31), IFEval (8,45 frente a 71,45) y LiveCodeBench (66,31), LN-Ultra supera a DeepSeek-R1 en todos los aspectos y, lo que es más importante, LN-Ultra se ejecuta eficientemente en un único nodo 8xH100, mientras que DeepSeek-R1 requiere hardware 8xH200, lo que significa que no sólo rinde mejor, sino que también ofrece un mayor rendimiento en el razonamiento y un umbral más bajo para la implantación.

Según el Artificial Analytics Intelligence Index, en abril de 2025, Llama-Nemotron-Ultra ha sido reconocido como el modelo de código abierto "más inteligente" disponible. Esta serie de modelos, todos ellos bajo licencias de código abierto favorables a las empresas, la NVIDIA Open Model License y la Llama Community Licence, permiten a las empresas utilizarlos y modificarlos libremente, lo que sin duda acelerará la popularidad de la tecnología de IA y la innovación en aplicaciones.

Formación de modelos al descubierto: un proceso de construcción en cinco etapas para 140.000 horas H100

NVIDIA ha revelado en un informe técnico el proceso de creación en cinco fases de la familia de modelos Llama-Nemotron, en el que se muestran todos los detalles técnicos, desde la optimización de la arquitectura hasta el aprendizaje por refuerzo.

Fase 1: Búsqueda de arquitectura neuronal con fusión FFN

El equipo empezó optimizando a fondo la arquitectura original basada en Llama 3.1 utilizando un marco de búsqueda neuronal de arquitecturas (NAS) llamado Puzzle. Las variaciones se implementaron creando una biblioteca de módulos transformadores alternativos:

  • Mecanismo de atención eliminado selectivamente para reducir el consumo de memoria de cálculo y de caché KV.
  • Dimensiones FFN variables para la compresión de modelos en distintas granularidades

Especialmente innovadora es la tecnología FFN Fusion (Fusión FFN): cuando aparecen bloques FFN continuos en el modelo después de que el NAS elimine algunas de las capas de atención, FFN Fusion sustituye estas estructuras por menos capas FFN ejecutables en paralelo, pero más amplias, lo que mejora notablemente la eficiencia computacional en un entorno multi-GPU.

Fase 2: Destilación de conocimientos y formación previa continua

Tras la optimización de la arquitectura, el equipo realizó una destilación de conocimientos a gran escala con un preentrenamiento continuo para recuperar y mejorar el rendimiento del modelo:

  • LN-Super entrena 40.000 millones de fichas utilizando el conjunto de datos Distillation Mix
  • LN-Ultra entrena primero el mismo conjunto de datos durante 65.000 millones de tokens y, a continuación, sigue entrenando 88.000 millones de tokens en el conjunto de datos de la fase 4 de Nemotron-H.

Fase III: Síntesis de los datos para supervisar la puesta a punto

La fase de ajuste supervisado emplea una innovadora metodología de entrenamiento de datos sintéticos que construye cuidadosamente conjuntos de datos que contienen muestras inferenciales y no inferenciales:

  • Ejemplo de razonamiento: "Pensamiento detallado sobre" añadido al comando del sistema.
  • Muestras no razonadas: uso del "pensamiento detallado en off"

Este diseño permite al modelo cambiar dinámicamente los comportamientos de inferencia según el contenido del indicio, sentando las bases de la función "cambio de inferencia".

Fase IV: Formación intensiva masiva

Esta fase es clave para que LN-Ultra supere a DeepSeek-R1. El equipo utilizó el mismo algoritmo de Optimización de Políticas Relativas Agrupadas (GRPO) que DeepSeek-R1, y el innovador diseño del proceso de entrenamiento incluyó:

  • Incentivos: incentivos de precisión (basados en la coincidencia de respuestas estándar) e incentivos de formato (para obligar a utilizar etiquetas específicas).
  • Cribado de datos: se precensuraron las muestras simples con un índice de aprobados ≥75%.
  • Curso de formación: asignación progresiva de lotes en función del índice de aprobados, con transición gradual de muestras fáciles a difíciles.

Todo el proceso de entrenamiento consume unas 140.000 horas de GPU H100, utiliza 72 nodos (8 GPU H100 por nodo) y emplea precisión FP8 en la fase de generación y precisión BF16 en la fase de entrenamiento, una combinación de técnicas que permite a LN-Ultra obtener mejoras significativas de precisión en el conjunto de datos GPQA-Diamond.

Fase 5: Alineación de los mandos y optimización de las preferencias humanas

En la fase final se llevó a cabo una breve sesión de aprendizaje reforzado, centrada en optimizar la capacidad del modelo para seguir órdenes y alinear las preferencias humanas. El equipo utilizó la tecnología RLHF para mejorar la capacidad de ayuda general del modelo y su rendimiento en el chat, conservando al mismo tiempo su habilidad en áreas especializadas como matemáticas y ciencias. Los resultados mostraron que el LN-Super alineado obtuvo una puntuación de 88,3 en la prueba Arena Hard, superando a modelos propios como Claude 3.5 Sonnet y GPT-4o.

Innovación revolucionaria: funcionalidad de conmutación por inferencia y optimización del conocimiento del hardware

Una de las mayores innovaciones de la serie Llama-Nemotron es la función de interruptor de razonamiento, que permite al usuario cambiar dinámicamente entre los dos modos con sólo añadir "pensamiento detallado activado/desactivado" a la indicación del sistema:

  • Modo de chat estándar: Responder rápidamente a las consultas diarias con respuestas directas
  • modelo de inferencia profundaRealizar razonamientos complejos de varios pasos, demostrando un proceso de pensamiento completo.

Este diseño resuelve uno de los principales puntos débiles de los actuales modelos de IA: los desarrolladores no necesitan mantener modelos con diferentes arquitecturas y pueden ajustar con flexibilidad los comportamientos de los modelos en función de la demanda. Se trata de la primera familia de modelos de código abierto de IA que implementa esta característica.

A nivel de optimización del hardware, la serie Nemotron se ha sometido a una profunda optimización que tiene en cuenta el hardware:

  • Apoyo a la precisiónBF16 en la fase de entrenamiento, FP8 en la fase de generación (lo que multiplica por 1,8 la velocidad) y FP32 en el estado del optimizador.
  • Generación de precisión FP8El investigador ha desarrollado un modelo de generación de precisión FP8 en línea compatible con el marco vLLM, con un rendimiento de generación de hasta 32 token/s por prompt en una sola GPU.
  • Cargador de pesas vLLM personalizadoConversión de pesos BF16 a formato FP8 en tiempo de ejecución

Con estas optimizaciones, LN-Ultra consigue un rendimiento de inferencia 4 veces superior al de DeepSeek-R1, al tiempo que mantiene una precisión superior.

Comparación del rendimiento: desmentir el mito de la relación lineal entre el número de parámetros y el rendimiento

Mediante pruebas comparativas, la familia de modelos Llama-Nemotron demuestra un rendimiento superior más allá de su escala paramétrica:

modelizaciónGPQA-DiamanteIFEvalLiveCodeBenchArena dura
LN-Ultra (253B)76.0189.4566.3185.2
DeepSeek-R171.583.381.7
Llama 3.1-405B70.788.563.382.4

Incluso el LN-Super más pequeño (49B) tuvo un buen rendimiento, logrando una alta puntuación de 88,3 en la prueba Arena Hard, superando a modelos propietarios como el Claude 3.5 Sonnet y el GPT-4o-2024-05-13, y superando a modelos de código abierto mucho más grandes.

Más notablemente, en la tarea JudgeBench (distinguir entre respuestas de alta y baja calidad), LN-Ultra se convierte en el modelo de código abierto con mejor rendimiento, superando significativamente a DeepSeek-R1, y sólo superado por el modelo propietario o3-mini(high). Esta es una buena prueba de la capacidad de generalización del modelo.

El nuevo panorama del código abierto: el comienzo de la era de la eficiencia

El lanzamiento de la serie Llama-Nemotron marca una nueva fase de desarrollo de la IA que prioriza la eficiencia y repercute en la industria de muchas maneras:

  1. Romper las barreras de los parámetros: Superar a los modelos más grandes a menor escala y desafiar la idea convencional de que "cuanto más grande, mejor".
  2. Reducción del umbral de implantación: Diseño arquitectónico eficiente para que las implantaciones de grandes modelos sean asequibles para más empresas.
  3. Acelerar la innovación tecnológica: Una estrategia de código totalmente abierto acelerará la difusión de la tecnología y la innovación en IA
  4. Fomentar la investigación sobre la eficienciaMotivar a más investigadores para que exploren los límites de eficiencia de los grandes modelos.

A medida que la carrera de la IA se adentra en una era en la que la eficiencia es la reina, una serie de innovaciones hechas públicas por la serie Llama-Nemotron de NVIDIA -desde los interruptores de inferencia dinámica hasta la optimización basada en hardware, y desde el entrenamiento de datos sintéticos hasta el aprendizaje por refuerzo a gran escala- están llamadas a influir en la futura dirección de los grandes modelos.

La importancia de esta revelación tecnológica radica no sólo en el nacimiento de una nueva generación de modelos de alta eficiencia, sino también en el establecimiento de un nuevo punto de referencia técnico para toda la industria de la IA, que promueve la continua evolución de la tecnología de IA en la dirección de una mayor practicidad y universalidad. Con el apoyo de hardware de nueva generación, como la próxima GPU B100, es probable que esta serie de modelos sea sólo el principio de la revolución de la eficiencia.

Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: abch891) si no sabe cómo recargar su cuenta.

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.