Nvidia Nemotron-Cascade 2: открытая, компактная MoE-модель на уровне Nemotron-3-Super-120B | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Nvidia Nemotron-Cascade 2: открытая, компактная MoE-модель на уровне Nemotron-3-Super-120B

~ 2 мин
82
Простой
Новости
Nvidia Nemotron-Cascade 2: открытая, компактная MoE-модель на уровне Nemotron-3-Super-120B

Введение

Компания Nvidia представила новую открытую ИИ-модель Nemotron-Cascade 2 на базе архитектуры MoE с 30 миллиардами общих и 3 миллиардами активных параметров, а также контекстным окном в 256 тысяч токенов. Модель продвигается как решение класса “плотного ИИ”, что объясняется высочайшими результатами в ключевых ИИ-бенчмарках при сравнительно небольшом объеме параметров — Nemotron-Cascade 2 стала второй открытой LLM, завоевавшей золотую медаль Международной математической олимпиады (IMO) 2025 года, а также получила золото на Международной олимпиаде по информатике (IOI) и в финале ICPC. Эффективность Nemotron-Cascade 2 объясняется уникальной методикой обучения, поддержкой глубокого рассуждения и специализированных навыков.

Подробнее о Nvidia Nemotron-Cascade 2

Модель Nemotron-Cascade 2 представляет из себя дообученную версию Nemotron-3-Nano-30B-A3B-Base, однако дообучение выполнялось методом Cascade Reinforcement Learning (Cascade RL). В отличие от классического RL, где данные из разных областей смешиваются в одну кучу, Cascade RL разделяет процесс обучения на последовательные этапы, на каждом из которых модель получает знания от одной области к другой, у каждой из которых своя схема верификаторов и вознаграждений — это увеличивает эффективность работы нейросети и, что самое важное, предотвращает катастрофическое забывание, свойственное традиционным ИИ-трансформерам с длинным контекстным окном. В конце обучения знания дистиллируются по новому методу MOPD (Multi-Domain On-Policy Distillation). Схема MOPD использует промежуточные учительские модели, которые позволяют выполнять плотную дистилляцию знаний. В результате Cascade RL, модель Nemotron-Cascade 2 достигает высочайшей эффективности в ключевых задачах, таких как математика, программирование, следование инструкциям, при этом все данные умещаются в 30 миллиардах параметров. Помимо основного обучения, модель Nemotron-Cascade 2 также была оптимизирована с помощью метода SFT, для которого использовались тщательно подобранные наборы данных из различных областей, упакованные в последовательности до 256K токенов. 

Пайплайн обучения Nvidia Nemotron-Cascade 2
Пайплайн обучения Nvidia Nemotron-Cascade 2. Источник: Nvidia.

Все эти технологии позволили Nvidia Nemotron-Cascade 2 завоевать превосходство над Qwen3.5-35B-A3B и Nemotron-3-Super-120B-A12B сразу в трех категориях:
  • Математические рассуждения: AIME 2025 — 92,4 против 91,9; HMMT Feb25 — 94,6 против 89,0.
  • Программирование: LiveCodeBench v6 — 87,2 против 74,6; IOI 2025 — 439,28 против 348,6+.
  • Следование инструкциям: ArenaHard v2 — 83,5 против 65,4+; IFBench — 82,9 против 70,2.
Модель Nemotron-Cascade 2 поддерживает два режима работы: с размышлением для сложных логических задач и без размышления для максимальной скорости вывода. Для агентных задач модель использует структурированный протокол вызова инструментов внутри системного промпта. Доступные инструменты перечисляются в тегах <tools>, а вызовы оборачиваются в теги $_$. Веса модели уже лежат на Hugging Face, а для ее развертывания потребуется минимум 24 ГБ VRAM.

Результаты тестирования Nvidia Nemotron-Cascade 2
Результаты тестирования Nvidia Nemotron-Cascade 2. Источник: Nvidia.

Выводы

Nemotron-Cascade 2 доказывает, что глубокие математические рассуждения и агентные возможности не требуют сотен миллиардов параметров. Всего 30 миллиардов общих и 3 миллиарда активных параметров вполне достаточно, чтобы завоевывать золото IMO, IOI и ICPC. И это достигается только максимально точным, качественным пост-тренингом: каскадное RL предотвращает потерю навыков, MOPD обеспечивает эффективную дистилляцию, а SFT доводит все до идеала. Результат — одна из лучших открытых моделей в своем классе для программирования, математики, следования инструкциям и сложных рассуждений при низкой вычислительной стоимости инференса.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)