Новый джаггернаут NVIDIA с открытым исходным кодом: революция в эффективности с 671 млрд до 253 млрд параметров
В современную эпоху быстрого развития больших моделей ИИ компания NVIDIA вновь демонстрирует свое технологическое мастерство. Недавно NVIDIA выпустила серию моделей Llama-Nemotron, которые быстро поднялись на вершину среди моделей с открытым исходным кодом с удивительной эффективностью и производительностью, даже превзойдя DeepSeek-R1, который имеет гораздо большее количество параметров, в ряде ключевых бенчмарков.

Серия Llama-Nemotron состоит из трех моделей:
- LN-Nano (8B): Эффективные миниатюры, предназначенные для граничных устройств и мобильных приложений
- LN-Super (49B): Модель среднего класса, сочетающая в себе производительность и эффективность
- LN-Ultra (253B): Флагманская модель вывода, предназначенная для решения сложных задач
Самое удивительное, что LN-Ultra превосходит DeepSeek-R1 в ряде ключевых бенчмарков, таких как GPQA-Diamond (76,01 против 71,5), IFEval (89,45 против 83,3) и LiveCodeBench (66,31), используя всего 253 миллиарда параметров (около трети от 671 миллиарда параметров DeepSeek-R1). В бенчмарках, включая GPQA-Diamond (76,01 против 71,31), IFEval (8,45 против 71,45) и LiveCodeBench (66,31), LN-Ultra превосходит DeepSeek-R1 по всем параметрам, и, что более важно, LN-Ultra эффективно работает на одном узле 8xH100, тогда как DeepSeek-R1 требует оборудования 8xH200, что означает не только лучшую производительность, но и более высокую пропускную способность в рассуждениях и более низкий порог развертывания.

По данным Artificial Analytics Intelligence Index, по состоянию на апрель 2025 года Llama-Nemotron-Ultra признана самой "умной" моделью с открытым исходным кодом. Эта серия моделей под дружественными для бизнеса лицензиями с открытым исходным кодом, NVIDIA Open Model License и Llama Community Licence, позволяет предприятиям свободно использовать и модифицировать их, что, несомненно, ускорит популярность технологий ИИ и инновационных приложений.
Обучение модели раскрыто: пятиэтапный процесс строительства за 140 000 часов H100
NVIDIA раскрыла пятиэтапный процесс сборки семейства моделей Llama-Nemotron в техническом отчете, показав все технические детали - от оптимизации архитектуры до обучения с применением подкрепления.
Этап 1: Поиск нейронной архитектуры с объединением FFN
Команда начала с глубокой оптимизации оригинальной архитектуры на базе Llama 3.1 с помощью фреймворка Neural Architecture Search (NAS) под названием Puzzle. Вариации были реализованы путем создания библиотеки альтернативных модулей-трансформеров:
- Механизм внимания выборочно удален для уменьшения объема вычислений и потребления кэш-памяти KV
- Переменные размеры FFN для сжатия моделей с различной степенью детализации

Особенно инновационной является технология FFN Fusion (FFN Fusion): когда в модели появляются непрерывные FFN-блоки после того, как NAS удаляет часть слоев внимания, FFN Fusion заменяет эти структуры меньшим количеством, но более широкими параллельно исполняемыми FFN-слоями, что значительно повышает эффективность вычислений в среде с несколькими графическими процессорами.
Этап 2: Дистилляция знаний и непрерывное предварительное обучение
После оптимизации архитектуры команда провела масштабную дистилляцию знаний с непрерывным предварительным обучением, чтобы восстановить и улучшить производительность модели:
- LN-Super обучает 40 миллиардов токенов с помощью набора данных Distillation Mix
- LN-Ultra сначала обучает тот же набор данных на 65 миллиардов лексем, а затем продолжает обучение на 88 миллиардов лексем на наборе данных Nemotron-H stage 4

Этап III: Обобщение данных для мониторинга тонкой настройки
На этапе контролируемой тонкой настройки используется инновационная методология обучения на синтетических данных, которая тщательно конструирует наборы данных, содержащие как инферентные, так и неинферентные образцы:
- Пример рассуждений: в системную команду добавлено "Подробно обдумать".
- Образцы без рассуждений: использование "детального мышления".
Такая конструкция позволяет модели динамически переключать поведение умозаключения в зависимости от содержания подсказки, закладывая основу для функции "переключения умозаключения".
Фаза IV: Массовое интенсивное обучение
Этот этап является ключевым для LN-Ultra, чтобы превзойти DeepSeek-R1. Команда использовала тот же алгоритм Grouped Relative Policy Optimisation (GRPO), что и в DeepSeek-R1, а инновационный дизайн процесса обучения включал:
- Стимулы: стимулы точности (основанные на совпадении со стандартными ответами) и стимулы формата (заставляющие использовать определенные метки)
- Отбор данных: простые образцы с коэффициентом пропуска ≥75% подвергались предварительной цензуре
- Курсовая подготовка: постепенное распределение партий в зависимости от проходного балла, с постепенным переходом от легких к сложным образцам
Весь процесс обучения занимает около 140 000 часов работы H100 GPU, использует 72 узла (8 H100 GPU на узел) и использует точность FP8 на этапе генерации и точность BF16 на этапе обучения, что представляет собой комбинацию методов, позволяющих LN-Ultra получить значительное улучшение точности на наборе данных GPQA-Diamond.

Этап 5: Выравнивание команд и оптимизация предпочтений людей
На заключительном этапе была проведена короткая сессия обучения с подкреплением, направленная на оптимизацию возможностей модели по выполнению команд и выравниванию предпочтений человека. Команда использовала технологию RLHF, чтобы улучшить общие способности модели к оказанию помощи и работе в чате, сохранив при этом ее способности в специализированных областях, таких как математика и естественные науки. Результаты показали, что выровненный LN-Super набрал 88,3 балла в тесте Arena Hard, превзойдя такие собственные модели, как Claude 3.5 Sonnet и GPT-4o.

Революционная инновация: функциональность переключения выводов и оптимизация аппаратной осведомленности
Одна из самых больших инноваций в серии Llama-Nemotron - функция переключателя рассуждений, которая позволяет пользователю динамически переключаться между двумя режимами, просто добавив в системный запрос "включить/выключить детальное мышление":
- Стандартный режим чата: Быстро реагировать на ежедневные запросы и давать прямые ответы
- глубокая модель вывода: Проводить сложные многоступенчатые рассуждения, демонстрируя целостный мыслительный процесс
Такая конструкция решает одну из основных проблем существующих моделей ИИ - разработчикам не нужно поддерживать модели с разными архитектурами, и они могут гибко настраивать поведение моделей в зависимости от потребностей. В мировом пространстве ИИ с открытым исходным кодом это первое семейство моделей, в котором реализована такая возможность.
На уровне аппаратной оптимизации серия Nemotron подверглась глубокой аппаратной оптимизации:
- Поддержка точности: BF16 используется на этапе обучения, FP8 - на этапе генерации (что дает ускорение в 1,8 раза), а состояние оптимизатора хранится в FP32.
- FP8 Генерация точности: Исследователь разработал онлайновую модель генерации точных FP8, поддерживающую фреймворк vLLM, с пропускной способностью генерации до 32 токенов/с за операцию на одном GPU.
- Пользовательский весовой дозатор vLLM: Преобразование весов BF16 в формат FP8 во время выполнения
Благодаря этим оптимизациям LN-Ultra достигает ошеломляющей производительности в 4 раза выше, чем у DeepSeek-R1, сохраняя при этом превосходную точность вычислений.

Сравнение производительности: развенчание мифа о линейной зависимости между количеством параметров и производительностью
В ходе сравнительных испытаний модели семейства Llama-Nemotron демонстрируют превосходные характеристики, превосходящие их параметрическую шкалу:
моделирование | GPQA-Diamond | IFEval | LiveCodeBench | Арена Хард |
---|---|---|---|---|
LN-Ultra (253B) | 76.01 | 89.45 | 66.31 | 85.2 |
DeepSeek-R1 | 71.5 | 83.3 | – | 81.7 |
Ллама 3.1-405B | 70.7 | 88.5 | 63.3 | 82.4 |
Даже младшая модель LN-Super (49B) показала хорошие результаты, получив высокую оценку 88,3 балла в тесте Arena Hard, опередив такие фирменные модели, как Claude 3.5 Sonnet и GPT-4o-2024-05-13, и намного более крупные модели с открытым исходным кодом.
Более того, в задаче JudgeBench (различение качественных и некачественных ответов) LN-Ultra становится лучшей моделью с открытым исходным кодом, значительно превосходя DeepSeek-R1 и уступая только собственной модели o3-mini(high). Это является хорошим доказательством способности модели к обобщению.
Новый ландшафт с открытым исходным кодом: рассвет эры эффективности
Выпуск серии Llama-Nemotron знаменует собой новый этап развития искусственного интеллекта, который ставит во главу угла эффективность и оказывает многостороннее влияние на индустрию:
- Преодоление барьеров параметров: Превзойти более крупные модели в меньшем масштабе и бросить вызов общепринятому мнению, что "больше - значит лучше".
- Снижение порога развертывания: Эффективный архитектурный дизайн, позволяющий сделать развертывание крупных моделей доступным для большего числа предприятий.
- Ускорение технологических инноваций: Стратегия полностью открытого исходного кода ускорит распространение технологий и инноваций ИИ
- Продвижение исследований эффективности: мотивировать больше исследователей к изучению границ эффективности больших моделей
Поскольку гонка ИИ вступает в эпоху, когда эффективность - это главное, ряд инноваций, представленных в серии NVIDIA Llama-Nemotron - от динамических переключателей вывода до аппаратно-ориентированной оптимизации, от обучения на синтетических данных до масштабного обучения с подкреплением - повлияет на будущее направление развития больших моделей.
Значение этого технологического открытия заключается не только в появлении нового поколения высокоэффективных моделей, но и в установлении нового технического эталона для всей индустрии ИИ, что способствует дальнейшему развитию технологий ИИ в направлении большей практичности и универсальности. При поддержке аппаратного обеспечения нового поколения, такого как грядущий графический процессор B100, эта серия моделей, вероятно, станет лишь началом революции эффективности.
Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.