NVIDIAs neuer Open-Source-Moloch: eine Revolution der Effizienz von 671 Milliarden auf 253 Milliarden Parameter
In der heutigen Ära der rasanten Entwicklung großer KI-Modelle schlägt NVIDIA mit seinen technologischen Fähigkeiten wieder einmal Wellen. Kürzlich hat NVIDIA die Llama-Nemotron-Modellreihe veröffentlicht, die sich mit erstaunlicher Effizienz und Leistung schnell an die Spitze der Open-Source-Modelle gesetzt hat und sogar DeepSeek-R1, das eine viel größere Anzahl von Parametern hat, in einer Reihe von wichtigen Benchmarks übertrifft.

Die Llama-Nemotron-Serie umfasst drei Modelle:
- LN-Nano (8B)Efficient miniatures designed for edge devices and mobile applications
- LN-Super (49B)Ein Mittelklassemodell, das Leistung und Effizienz in Einklang bringt
- LN-Ultra (253B)Flaggschiff: Inferenzmodell für komplexe Aufgaben
Am erstaunlichsten ist, dass LN-Ultra DeepSeek-R1 in einer Reihe von wichtigen Benchmarks wie GPQA-Diamond (76,01 vs. 71,5), IFEval (89,45 vs. 83,3) und LiveCodeBench (66,31) mit nur 253 Milliarden Parametern (etwa ein Drittel der 671 Milliarden Parameter von DeepSeek-R1) übertrifft. Bei den Benchmarks, einschließlich GPQA-Diamond (76,01 vs. 71,31), IFEval (8,45 vs. 71,45) und LiveCodeBench (66,31), übertrifft LN-Ultra DeepSeek-R1 auf der ganzen Linie, und, was noch wichtiger ist, LN-Ultra läuft effizient auf einem einzigen 8xH100-Knoten, während DeepSeek-R1 8xH200-Hardware benötigt, was bedeutet, dass es nicht nur eine bessere Leistung erbringt, sondern auch einen höheren Durchsatz beim Reasoning und eine niedrigere Schwelle für die Bereitstellung bietet.

Laut dem Artificial Analytics Intelligence Index wurde Llama-Nemotron-Ultra im April 2025 als das "intelligenteste" verfügbare Open-Source-Modell anerkannt. Diese Reihe von Modellen, die alle unter unternehmensfreundlichen Open-Source-Lizenzen, der NVIDIA Open Model License und der Llama Community Licence, stehen, ermöglichen es Unternehmen, sie frei zu nutzen und zu verändern, was die Popularität von KI-Technologie und Anwendungsinnovation zweifellos beschleunigen wird.
Modellschulung enthüllt: ein fünfstufiger Konstruktionsprozess für 140.000 H100-Stunden
NVIDIA hat den fünfstufigen Erstellungsprozess für die Llama-Nemotron-Modellfamilie in einem technischen Bericht offengelegt, der alle technischen Details von der Architekturoptimierung bis zum Reinforcement Learning zeigt.
Phase 1: Neuronale Architektursuche mit FFN-Fusion
Das Team begann mit einer tiefgreifenden Optimierung der ursprünglichen, auf Llama 3.1 basierenden Architektur unter Verwendung eines Neural Architecture Search (NAS) Frameworks namens Puzzle. Variationen wurden durch den Aufbau einer Bibliothek mit alternativen Transformatormodulen implementiert:
- Der Aufmerksamkeitsmechanismus wurde selektiv entfernt, um den Verbrauch von Berechnungen und KV-Cache-Speicher zu reduzieren.
- Variable FFN-Dimensionen für die Modellkomprimierung mit unterschiedlicher Granularität

Besonders innovativ ist die FFN-Fusion-Technologie: Wenn im Modell zusammenhängende FFN-Blöcke auftauchen, nachdem der NAS einige der Aufmerksamkeitsschichten entfernt hat, ersetzt FFN Fusion diese Strukturen durch weniger, aber breitere, parallel ausführbare FFN-Schichten, was die Berechnungseffizienz in einer Multi-GPU-Umgebung erheblich verbessert.
Phase 2: Wissensdestillation und kontinuierliche Vorschulung
Nach der architektonischen Optimierung führte das Team eine groß angelegte Wissensdestillation mit kontinuierlichem Pre-Training durch, um die Modellleistung wiederherzustellen und zu verbessern:
- LN-Super trainiert 40 Milliarden Token mit dem Distillation-Mix-Datensatz
- LN-Ultra trainiert zunächst denselben Datensatz für 65 Milliarden Token und fährt dann fort, 88 Milliarden Token auf dem Nemotron-H-Datensatz der Stufe 4 zu trainieren

Phase III: Synthese von Daten zur Überwachung der Feinabstimmung
In der überwachten Feinabstimmungsphase kommt eine innovative Trainingsmethode für synthetische Daten zum Einsatz, bei der sorgfältig Datensätze erstellt werden, die sowohl schlussfolgernde als auch nicht schlussfolgernde Stichproben enthalten:
- Beispielhafte Argumentation: "Detailliertes Nachdenken über" zum Systembefehl hinzugefügt.
- Nicht-begründende Proben: Verwendung von "detailliertem Ausdenken"
Diese Konstruktion ermöglicht es dem Modell, das Inferenzverhalten dynamisch in Abhängigkeit vom Inhalt des Hinweises zu ändern, was die Grundlage für die Funktion "Inferenzwechsel" bildet.
Phase IV: Massives intensives Lerntraining
Diese Phase ist entscheidend dafür, dass LN-Ultra DeepSeek-R1 übertreffen kann. Das Team verwendete denselben GRPO-Algorithmus (Grouped Relative Policy Optimisation) wie bei DeepSeek-R1, und das innovative Design des Trainingsprozesses beinhaltete:
- Anreize: Genauigkeitsanreize (basierend auf übereinstimmenden Standardantworten) und Formatanreize (um die Verwendung bestimmter Etiketten zu erzwingen)
- Daten-Screening: einfache Proben mit einer Passierrate von ≥75% wurden vorzensiert
- Kurstraining: schrittweise Zuteilung von Chargen auf der Grundlage der Erfolgsquote, mit allmählichem Übergang von leichten zu schwierigen Proben
Der gesamte Trainingsprozess verbraucht etwa 140.000 H100-GPU-Stunden, verwendet 72 Knoten (8 H100-GPUs pro Knoten) und verwendet FP8-Genauigkeit in der Generierungsphase und BF16-Genauigkeit in der Trainingsphase, was eine Kombination von Techniken ist, die es LN-Ultra ermöglicht, signifikante Genauigkeitsverbesserungen auf dem GPQA-Diamond-Datensatz zu erzielen.

Phase 5: Befehlsabgleich und Optimierung der menschlichen Präferenzen
In der letzten Phase wurde eine kurze Reinforcement-Learning-Sitzung durchgeführt, die sich auf die Optimierung der Fähigkeiten des Modells zur Befolgung von Befehlen und die Anpassung an menschliche Präferenzen konzentrierte. Das Team setzte die RLHF-Technologie ein, um die allgemeine Hilfefähigkeit und die Chat-Leistung des Modells zu verbessern, während seine Fähigkeiten in speziellen Bereichen wie Mathematik und Wissenschaft erhalten blieben. Die Ergebnisse zeigten, dass das angepasste LN-Super im Arena-Hard-Test 88,3 Punkte erreichte und damit proprietäre Modelle wie Claude 3.5 Sonnet und GPT-4o übertraf.

Revolutionäre Innovation: Inference Switching-Funktionalität und Optimierung des Hardware-Bewusstseins
Eine der größten Innovationen der Llama-Nemotron-Serie ist die Funktion des Denkschalters, die es dem Benutzer ermöglicht, dynamisch zwischen den beiden Modi umzuschalten, indem er einfach "Detailliertes Denken ein/aus" zur Systemaufforderung hinzufügt:
- Standard-Chat-ModusSchnelles Reagieren auf tägliche Anfragen mit direkten Antworten
- tiefes InferenzmodellKomplexe mehrstufige Argumentation, die einen vollständigen Denkprozess erkennen lässt
Dieses Design löst einen der Hauptprobleme aktueller KI-Modelle: Entwickler müssen keine Modelle mit unterschiedlichen Architekturen pflegen und können das Verhalten des Modells je nach Bedarf flexibel anpassen. Im globalen KI-Open-Source-Bereich ist dies die erste Modellfamilie, die eine solche Funktion implementiert.
Auf der Ebene der Hardware-Optimierung wurde die Nemotron-Serie einer tief greifenden hardwarebasierten Optimierung unterzogen:
- Unterstützung bei der GenauigkeitBF16 wird in der Trainingsphase verwendet, FP8 wird in der Generierungsphase verwendet (was eine 1,8-fache Beschleunigung bringt) und der Optimierungsstatus wird in FP32 gehalten
- FP8-GenauigkeitserzeugungDer Forscher hat ein Online-FP8-Präzisionsgenerierungsmodell entwickelt, das das vLLM-Framework unterstützt, mit einem Generierungsdurchsatz von bis zu 32 Token/s pro Prompt auf einer einzelnen GPU.
- Benutzerdefinierter vLLM-GewichtsladerBF16-Gewichte zur Laufzeit in FP8-Format konvertieren
Mit diesen Optimierungen erreicht LN-Ultra einen erstaunlichen, viermal höheren Durchsatz als DeepSeek-R1, während die Genauigkeit überragend bleibt.

Leistungsvergleich: Widerlegung des Mythos eines linearen Verhältnisses zwischen der Anzahl der Parameter und der Leistung
Durch vergleichende Tests zeigt die Llama-Nemotron-Modellfamilie eine überdurchschnittliche Leistung, die über die parametrische Skala hinausgeht:
Modellierung | GPQA-Diamant | IFEval | LiveCodeBench | Arena Hart |
---|---|---|---|---|
LN-Ultra (253B) | 76.01 | 89.45 | 66.31 | 85.2 |
DeepSeek-R1 | 71.5 | 83.3 | – | 81.7 |
Llama 3.1-405B | 70.7 | 88.5 | 63.3 | 82.4 |
Sogar das kleinere LN-Super (49B) schnitt gut ab und erreichte im Arena-Hard-Test eine hohe Punktzahl von 88,3, womit es proprietäre Modelle wie das Claude 3.5 Sonnet und das GPT-4o-2024-05-13 übertraf und viel größere Open-Source-Modelle übertraf.
Insbesondere bei der Aufgabe JudgeBench (Unterscheidung zwischen hochwertigen und minderwertigen Antworten) ist LN-Ultra das leistungsstärkste Open-Source-Modell, das DeepSeek-R1 deutlich übertrifft und nach dem proprietären Modell o3-mini(high) an zweiter Stelle liegt. Dies ist ein guter Beweis für die gute Generalisierungsfähigkeit des Modells.
Die neue Open-Source-Landschaft: Die Ära der Effizienzorientierung bricht an
Die Einführung der Llama-Nemotron-Reihe markiert eine neue Phase der KI-Entwicklung, bei der die Effizienz im Vordergrund steht und die sich in vielerlei Hinsicht auf die Branche auswirkt:
- Überwindung von ParameterschrankenGrößere Modelle in kleinerem Maßstab zu übertreffen und die konventionelle Weisheit "größer ist besser" in Frage zu stellen.
- Senkung der EinsatzschwelleEffizientes architektonisches Design, um große Modellimplementierungen für mehr Unternehmen erschwinglich zu machen
- Beschleunigung der technologischen InnovationEine vollständig quelloffene Strategie wird die Verbreitung von KI-Technologie und Innovation beschleunigen.
- Förderung der Effizienzforschung: mehr Forscher zu motivieren, die Grenzen der Effizienz großer Modelle zu erforschen
Da das KI-Rennen in eine Ära eintritt, in der Effizienz an erster Stelle steht, wird eine Reihe von Innovationen, die von NVIDIAs Llama-Nemotron-Serie bekannt gemacht wurden - von dynamischen Inferenzschaltern bis hin zu Hardware-bewusster Optimierung und von synthetischem Datentraining bis hin zu groß angelegtem Reinforcement Learning - die zukünftige Richtung großer Modelle beeinflussen.
Die Bedeutung dieser Technologieoffenlegung liegt nicht nur in der Geburt einer neuen Generation hocheffizienter Modelle, sondern auch in der Etablierung eines neuen technischen Maßstabs für die gesamte KI-Branche, der die weitere Entwicklung der KI-Technologie in Richtung größerer Praktikabilität und Universalität fördert. Mit der Unterstützung von Hardware der neuen Generation, wie der kommenden B100-GPU, wird diese Modellreihe wahrscheinlich nur der Anfang der Effizienzrevolution sein.
Wenn Sie GPT Plus, Claude Pro, Grok Super als offizielles, bezahltes Exklusivkonto nutzen möchten, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.