英伟达开源新霸主:从6710亿到2530亿参数的效率革命
在当今AI大模型飞速发展的时代,英伟达(NVIDIA)再次凭借其技术实力掀起了一场波澜。近日,英伟达发布的Llama-Nemotron系列模型以惊人的效率和性能,迅速登顶开源模型之巅,甚至在多项关键基准测试中超越了参数量更大的DeepSeek-R1。

Llama-Nemotron系列包含三个模型:
- LN-Nano (8B):专为边缘设备和移动应用设计的高效小模型
- LN-Super (49B):平衡性能与效率的中端模型
- LN-Ultra (253B):旗舰级推理模型,专为复杂任务设计
最令人惊叹的是,LN-Ultra以仅2530亿参数(约为DeepSeek-R1的6710亿参数的三分之一)在GPQA-Diamond(76.01分 vs 71.5分)、IFEval(89.45分 vs 83.3分)和LiveCodeBench(66.31分)等多项关键基准测试中全面超越了DeepSeek-R1。更为重要的是,LN-Ultra可在单个8xH100节点上高效运行,而DeepSeek-R1需要8xH200硬件,这意味着LN-Ultra不仅性能更佳,还具有更高的推理吞吐量和更低的部署门槛。

根据人工分析智能指数显示,截至2025年4月,Llama-Nemotron-Ultra已被公认为当前”最智能”的开源模型。这一系列模型全部采用商业友好的开源许可,遵循NVIDIA Open Model License和Llama社区许可,允许企业自由使用和修改,无疑将加速AI技术的普及与应用创新。
模型训练揭秘:14万H100小时的五阶段构建流程
英伟达在技术报告中详细揭示了Llama-Nemotron系列模型的五阶段构建流程,展示了从架构优化到强化学习的全部技术细节。
第一阶段:神经架构搜索与FFN融合
团队首先利用名为”Puzzle”的神经架构搜索(NAS)框架,对基于Llama 3.1的原始架构进行深度优化。通过构建替代Transformer模块库,实现了多种变体:
- 注意力机制选择性移除,降低计算量和KV缓存内存消耗
- 可变FFN维度,实现不同粒度的模型压缩

特别创新的是FFN融合(FFN Fusion)技术:当NAS移除部分注意力层后,模型中出现连续FFN块时,FFN Fusion会将这些结构替换为更少但更宽、可并行执行的FFN层,显著提升了多GPU环境下的计算效率。
第二阶段:知识蒸馏与持续预训练
在架构优化后,团队进行了大规模的知识蒸馏与持续预训练以恢复和提升模型性能:
- LN-Super使用Distillation Mix数据集训练400亿token
- LN-Ultra先训练650亿token相同数据集,再在Nemotron-H第四阶段数据集上继续训练880亿token

第三阶段:合成数据监督微调
监督微调阶段采用了创新的合成数据训练方法,精心构建了包含推理和非推理样本的数据集:
- 推理样本:系统指令中加入”detailed thinking on”
- 非推理样本:使用”detailed thinking off”
这种设计使模型能够根据提示内容动态切换推理行为,为”推理开关”功能奠定了基础。
第四阶段:大规模强化学习训练
这一阶段是LN-Ultra超越DeepSeek-R1的关键。团队采用了与DeepSeek-R1同款的分组相对策略优化(GRPO)算法,训练过程中的创新设计包括:
- 奖励机制:准确性奖励(基于标准答案匹配度)和格式奖励(强制特定标签使用)
- 数据筛选:预先剔除通过率≥75%的简单样本
- 课程训练:采用基于通过率的渐进式批次分配,从简单样本逐步过渡到困难样本
整个训练过程消耗约14万H100 GPU小时,使用72个节点(每个节点8张H100 GPU),生成阶段采用FP8精度,训练阶段采用BF16精度,这一系列技术组合使LN-Ultra在GPQA-Diamond数据集上的准确率获得显著提升。

第五阶段:指令对齐与人类偏好优化
最后阶段进行了简短的强化学习,重点优化模型的指令跟随能力和人类偏好对齐。团队使用RLHF技术提升模型的通用帮助能力和聊天表现,同时保留其在数学、科学等专业领域的能力。结果显示,经过对齐的LN-Super在Arena Hard测试中获得88.3分,超越了Claude 3.5 Sonnet和GPT-4o等专有模型。

革命性创新:推理开关功能与硬件感知优化
Llama-Nemotron系列最大的创新之一是推理开关功能,用户只需在系统提示中加入”detailed thinking on/off”即可动态切换两种模式:
- 标准聊天模式:快速响应日常查询,直接给出答案
- 深度推理模式:进行复杂多步推理,展示完整的思考过程
这一设计解决了当前AI模型的一大痛点——开发者无需维护不同架构的模型,即可根据需求灵活调整模型行为。在全球AI开源领域,这是首次实现此类功能的模型系列。
在硬件优化层面,Nemotron系列进行了深度的硬件感知优化:
- 精度支持:训练阶段采用BF16,生成阶段使用FP8(带来1.8倍加速),优化器状态保持FP32
- FP8精度生成:研究者开发了支持vLLM框架下在线FP8精度生成模式,单个GPU每个prompt的生成吞吐量最高可达32 token/s
- 自定义vLLM权重加载器:在运行时将BF16权重转换为FP8格式
通过这些优化,LN-Ultra在推理吞吐量上实现了比DeepSeek-R1高4倍的惊人性能,同时保持了卓越的准确率。

性能对比:打破参数量与性能的线性关系神话
通过对比测试,Llama-Nemotron系列模型展现出超越其参数规模的卓越性能:
模型 | GPQA-Diamond | IFEval | LiveCodeBench | Arena Hard |
---|---|---|---|---|
LN-Ultra (253B) | 76.01 | 89.45 | 66.31 | 85.2 |
DeepSeek-R1 | 71.5 | 83.3 | – | 81.7 |
Llama 3.1-405B | 70.7 | 88.5 | 63.3 | 82.4 |
即使是体积更小的LN-Super (49B)也表现出色,在Arena Hard测试中取得88.3的高分,超越了专有模型如Claude 3.5 Sonnet和GPT-4o-2024-05-13,也优于体量更大的开源模型。
更值得注意的是,在分布外任务JudgeBench(区分高质量与低质量回答)上,LN-Ultra成为表现最好的开源模型,明显超过了DeepSeek-R1,仅次于专有模型o3-mini(high)。这充分证明了模型良好的泛化能力。
开源新格局:效率优先时代的到来
Llama-Nemotron系列的发布标志着AI发展进入效率优先的新阶段,对行业产生多方面影响:
- 打破参数壁垒:以更小的规模超越更大模型,挑战”更大即更好”的传统观念
- 降低部署门槛:高效架构设计使更多企业能够负担大模型部署
- 加速技术创新:完全开源的策略将加速AI技术的普及与创新
- 推动效率研究:激励更多研究者探索大模型的效率边界
随着AI竞赛进入效率为王的时代,英伟达Llama-Nemotron系列公开的多项创新技术——从动态推理开关到硬件感知优化,从合成数据训练到大规模强化学习,都将影响未来大模型的发展方向。
这次技术公开的意义不仅在于新一代高效模型的诞生,更在于为整个AI行业树立了新的技术标杆,推动AI技术向着更实用、更普惠的方向持续进化。在即将到来的B100 GPU等新一代硬件支持下,这一系列模型很可能只是效率革命的开始。
如果想要使用GPT Plus、Claude Pro、Grok Super官方付费独享账户的,自己不会充值可以联系我们专业团队(wx:abch891)