エヌビディアの新しいオープンソース・ジャガーノート:6710億から2530億パラメータへの効率革命
大型AIモデルの開発が急速に進む今日、エヌビディアはその技術力で再び波紋を広げている。最近、NVIDIAがリリースしたLlama-Nemotronシリーズは、驚くべき効率とパフォーマンスでオープンソースモデルのトップに急浮上し、多くの重要なベンチマークにおいて、パラメータ数がはるかに多いDeepSeek-R1をも凌駕している。

ラマ・ネモトロン・シリーズには3つのモデルがある:
- LNナノ(8B)エッジ・デバイスやモバイル・アプリケーション向けに設計された効率的な小型製品
- LNスーパー (49B)性能と効率をバランスさせたミドルレンジモデル
- LNウルトラ (253B)複雑なタスクのために設計されたフラッグシップ推論モデル
最も驚くべきことに、LN-Ultraは、GPQA-Diamond(76.01対71.5)、IFEval(89.45対83.3)、LiveCodeBench(66.31)などの多くの主要ベンチマークにおいて、わずか2530億パラメータ(DeepSeek-R1の6710億パラメータの約3分の1)でDeepSeek-R1を上回っています。GPQA-Diamond(76.01対71.31)、IFEval(8.45対71.45)、LiveCodeBench(66.31)を含むベンチマークでは、LN-Ultraが軒並みDeepSeek-R1を上回っています。さらに重要なことに、LN-Ultraは単一の8xH100ノードで効率的に実行されるのに対し、DeepSeek-R1は8xH200ハードウェアを必要とするため、性能が高いだけでなく、推論におけるスループットが向上し、導入までの敷居が低くなります。

Artificial Analytics Intelligence Indexによると、2025年4月現在、Llama-Nemotron-Ultraは「最も賢い」オープンソースモデルとして認められている。この一連のモデルは、すべてエヌビディア・オープン・モデル・ライセンスとラマ・コミュニティ・ライセンスというビジネスに適したオープンソース・ライセンスのもと、企業が自由に使用・変更できるようになっており、AI技術とアプリケーション・イノベーションの普及を加速させることは間違いない。
モデル・トレーニング公開:14万H100時間の5段階構築プロセス
NVIDIAは、Llama-Nemotronファミリーの5段階の構築プロセスをテクニカルレポートで公開し、アーキテクチャの最適化から強化学習まで、すべての技術的な詳細を示した。
フェーズ1:FFNフュージョンによるニューラル・アーキテクチャの探索
チームはまず、Puzzleと呼ばれるニューラル・アーキテクチャ・サーチ(NAS)フレームワークを使用して、オリジナルのLlama 3.1ベースのアーキテクチャを深く最適化することから始めた。バリエーションは、代替トランスフォーマー・モジュールのライブラリを構築することで実装した:
- アテンション機構を選択的に削除し、計算量とKVキャッシュメモリの消費量を削減
- 異なる粒度でのモデル圧縮のための可変FFN寸法

特に革新的なのはFFNフュージョン(FFN Fusion)技術で、NASが注目レイヤーの一部を削除した後にモデル内に連続したFFNブロックが現れると、FFNフュージョンはこれらの構造を、より少ないがより広い並列実行可能なFFNレイヤーに置き換えることで、マルチGPU環境での計算効率を大幅に向上させる。
フェーズ2:知識の抽出と継続的な事前トレーニング
アーキテクチャの最適化後、チームは継続的な事前学習による大規模な知識の蒸留を行い、モデルのパフォーマンスを回復・向上させた:
- LN-Super、Distillation Mixデータセットを使用して400億トークンを訓練
- LN-Ultraは、まず同じデータセットで650億トークンの学習を行い、次にNemotron-Hステージ4のデータセットで880億トークンの学習を続ける。

フェーズIII:微調整をモニターするためのデータの統合
教師ありの微調整段階では、推論的サンプルと非推論的サンプルの両方を含むデータセットを注意深く構築する革新的な合成データ訓練手法を採用している:
- 推論例:システムコマンドに「詳細考察」を追加。
- 推論以外のサンプル:"詳細な思考停止 "の使用
この設計により、モデルはキューの内容に応じて推論動作を動的に切り替えることができるようになり、「推論スイッチ」機能の基礎が築かれた。
フェーズIV:大規模集中学習トレーニング
LN-UltraがDeepSeek-R1を超えるためには、この段階が鍵となる。チームはDeepSeek-R1と同じGrouped Relative Policy Optimisation(GRPO)アルゴリズムを使用し、トレーニングプロセスの革新的な設計を行った:
- インセンティブ:精度インセンティブ(標準的な回答との一致に基づく)、形式インセンティブ(特定のラベルの使用を強制する)
- データスクリーニング:合格率≧75%の単純標本は事前に打ち切られた。
- コーストレーニング:合格率に基づく段階的なバッチ割り当て、簡単なサンプルから難しいサンプルへの段階的な移行
学習プロセス全体では、約14万H100GPU時間を消費し、72ノード(1ノードあたり8H100GPU)を使用し、生成フェーズではFP8精度、学習フェーズではBF16精度を採用しています。これは、LN-UltraがGPQA-Diamondデータセットで大幅な精度向上を得ることを可能にする技術の組み合わせです。

フェーズ5:コマンド・アライメントと人間の嗜好の最適化
最終段階では短い強化学習セッションが実施され、モデルのコマンド追従能力と人間の嗜好の整合性を最適化することに焦点が当てられた。研究チームは、RLHF技術を使用して、モデルの一般的なヘルプ能力とチャットパフォーマンスを向上させる一方、数学や科学などの専門分野での能力を維持した。その結果、アリーナ・ハード・テストでは、アライメントされたLN-Superが88.3のスコアを獲得し、クロード3.5ソネットやGPT-4oなどの独自モデルを上回った。

革命的イノベーション:推論スイッチング機能とハードウェア認識の最適化
ラマ・ネモトロン・シリーズの最大の革新のひとつは、システム・プロンプトに「詳細思考のオン/オフ」を加えるだけで、2つのモードを動的に切り替えられる推論スイッチ機能である:
- 標準チャットモード日々の問い合わせに迅速に対応し、直接回答する。
- 深層推論モデル複雑な多段階推論を行い、完全な思考過程を示す。
この設計は、現在のAIモデルの主要なペインポイントの1つを解決します。開発者は、異なるアーキテクチャのモデルを保守する必要がなく、需要に応じてモデルの動作を柔軟に調整することができます。グローバルなAIオープンソース領域において、このような機能を実装した最初のモデルファミリーです。
ハードウェアの最適化レベルでは、ネモトロン・シリーズは、ハードウェアを意識した深い最適化が施されている:
- 精度サポートトレーニング段階ではBF16を使用し、生成段階ではFP8を使用(1.8倍のスピードアップをもたらす)。
- FP8精度生成研究者はvLLMフレームワークをサポートするオンラインFP8精度生成モデルを開発し、シングルGPUでプロンプトあたり最大32トークン/秒の生成スループットを実現した。
- カスタムvLLMウェイトローダー: 実行時にBF16ウェイトをFP8フォーマットに変換する
これらの最適化により、LN-UltraはDeepSeek-R1と比較して、優れた精度を維持しながら、推論スループットで4倍という驚異的なパフォーマンスを達成した。

性能比較:パラメータ数と性能の直線関係神話の払拭
比較テストを通じて、ラマ・ネモトロンのモデルファミリーは、パラメトリックな規模を超えた優れた性能を実証している:
モデリング | GPQAダイヤモンド | IFEval | LiveCodeBench | アリーナ・ハード |
---|---|---|---|---|
LNウルトラ (253B) | 76.01 | 89.45 | 66.31 | 85.2 |
ディープシーク-R1 | 71.5 | 83.3 | – | 81.7 |
ラマ3.1-405B | 70.7 | 88.5 | 63.3 | 82.4 |
より小型のLN-Super(49B)でさえ、Arena Hardテストで88.3という高得点を達成し、クロード3.5ソネットやGPT-4o-2024-05-13のようなプロプライエタリ・モデルを凌駕し、はるかに大型のオープンソース・モデルを凌駕する好成績を収めた。
さらに特筆すべきは、分布外タスクJudgeBench(高品質な回答と低品質な回答の区別)において、LN-Ultraはオープンソースモデルで最も性能が高く、DeepSeek-R1を大幅に上回り、プロプライエタリモデルo3-mini(high)に次ぐ性能となりました。これは、このモデルの優れた汎化能力を証明するものである。
オープンソースの新たな展望:効率優先時代の幕開け
ラマ・ネモトロン・シリーズのリリースは、効率性を優先し、様々な面で業界に影響を与えるAI開発の新たな段階を示すものである:
- パラメータの壁を破る大は小を兼ねる」という常識を覆す。
- 配備の敷居を下げる効率的なアーキテクチャ設計により、より多くの企業が大規模モデルを導入できるようになります。
- 技術革新の加速完全なオープンソース戦略は、AI技術とイノベーションの普及を加速させる。
- 効率性研究の推進より多くの研究者に、大規模モデルの効率境界を探る意欲を与える。
AIレースが効率性が王様の時代に突入する中、NVIDIAのLlama-Nemotronシリーズによって公開された数々のイノベーションは、動的推論スイッチからハードウェアを意識した最適化、そして合成データトレーニングから大規模な強化学習まで、ビッグモデルの将来の方向性に影響を与えようとしている。
この技術開示の意義は、新世代の高効率モデルの誕生だけでなく、AI業界全体の新たな技術的ベンチマークを確立し、より実用的で普遍的な方向へのAI技術の継続的な進化を促進することにある。今後登場するB100 GPUなどの新世代ハードウェアのサポートにより、この一連のモデルは効率革命の始まりに過ぎないだろう。
GPT Plus、Claude Pro、Grok Superの公式有料独占アカウントを使用したい場合、アカウントのトップアップの方法がわからない場合は、当社の専門チーム(wx: abch891)にお問い合わせください。