Nvidia представила Nemotron 3 Ultra 550b — новая флагманская модель на архитектуре MoE для управления ИИ-агентами

04.06.2026

~ 2 мин

582

Простой

Новости

Введение

Компания Nvidia сдержала свое обещание на Computex 2026 и официально представила новое семейство моделей Nemotron 3 Ultra — передовую нейросеть на архитектуре MoE с 550 миллиардов общих и 55 миллиардов активных параметров, спроектированная как интеллектуальный диспетчер для долгоживущих ИИ-агентов. Вместе с основной моделью Nemotron 3 Ultra, Nvidia также вывела два сопутствующих компактных решения: Content Safety на 4 млрд параметров для фильтрации опасного контента на 12 языках и потоковый Nemotron 3.5 ASR, распознающий 40+ языков с задержкой менее 100 мс. Все нейросети имеют полностью открытые веса и доступны на Hugging Face, а также различные среды развертывания Nvidia.

Подробнее о Nemotron 3 Ultra 550b

Передовая MoE-модель Nemotron 3 Ultra 550b создана для координации сложных многошаговых процессов в ИИ-агентных пайплайнах. Идея в том, чтобы тяжелая модель включалась только на этапах глубокого анализа, планирования и принятия решений внутри агентного роя, а рутинные вызовы инструментов и проверку отдавать более мелким, легким моделям. Это радикально снижает расход токенов и время отклика ИИ-агентов. Nemotron 3 Ultra 550b, как и другие нейросети семейства Nemotron 3, базируется на гибридной архитектуре Transformer-Mamba, где трансформерные слои занимаются извлечением данных, а альтернативные слои Mamba работают с длинными последовательностями. Квантование NVFP4 дает возможность использовать одну и ту же контрольную точку на трех поколениях графических процессоров Nvidia (Hopper, Blackwell и Ampere), при этом на Blackwell достигается пятикратный прирост пропускной способности по сравнению с BF16. Использование LatentMoE оптимизирует маршрутизацию между рассуждениями, кодом и вызовами инструментов, а мультитокеновое предсказание ускоряет генерацию длинных цепочек ответов.

На агентном бенчмарке PinchBench модель набирает 91%, сравнявшись с триллионной Kimi K2.6 и опередив Qwen3.5 (89%) и GLM 5.1 (84%). В EnterpriseOps-Gym на долгосрочное планирование результат достигает 33%, в Terminal-Bench 2.0 — 54%, в IFBench на следование инструкциям — 82%, в ProfBench — 56%. Контекстное окно Nemotron 3 Ultra 550b достигает 1 миллиона токенов, тогда как конкуренты с аналогичным числом параметров ограничены 256 тысячами токенов контекста. По данным Artificial Analysis, Nemotron 3 Ultra 550b генерирует ответы в 5 раз быстрее других открытых моделей того же класса и остается крайне эффективным решением где требуется как точность, так и скорость инференса скорость. Затраты токенов на задачу снижаются примерно на 30%, что подтверждено на SWE-bench и Terminal-Bench 2.0.

Стоимость использования Nemotron 3 Ultra 550b в сравнении с другими открытыми LLM. Источник: Nvidia.

Такой эффективности Nemotron 3 Ultra 550b удается добиться не только благодаря архитектурным инновациям, но и внушительном багаже данных для предобучения — 10 триллионов токенов основного пуля и 212 миллиардов дополнительных токенов под специализированные задачи. Пост-тренировочный пакет также включает настройку SFT и масштабное RL-дообучение. При этом, весь датасет для обучения Nemotron 3 Ultra 550b выложен в открытый доступ вместе с весами нейросети.

Помимо Nemotron 3 Ultra 550b, Nvidia дополнила релиз выпуску моделей Nemotron 3.5 Content Safety и Nemotron 3.5 ASR. Первая занимается интеллектуальной модерацией более 23 категорий опасного контента, обрабатываемого основной LLM, с поддержкой использования пользовательских политик и логических цепочек, а вторая потоковая нейросеть с задержкой менее 100 мс.

Nemotron 3 Ultra 550b и дополнительные модели доступны для развертывания как вручную, так и через среды Hermes Agent, OpenClaw, OpenShell и NemoClaw. Поддерживается пользовательская настройка через NeMo. Также Nemotron 3 Ultra доступен как NIM‑микросервис. Веса и датасеты Nemotron 3 Ultra 550b распространяются под лицензией OpenMDW-1.1 Linux FoundationЮ веса можно скачать через Hugging Face.

Модели выпущены под лицензией OpenMDW-1.1 Linux Foundation. Ultra доступна как NIM-микросервис и через партнеров: AWS, CoreWeave, DeepInfra, DigitalOcean, Fireworks AI, Google Cloud, Microsoft Foundry, Together AI и других. Попробовать можно на Perplexity Pro, OpenRouter или build.nvidia.com. Добступна как базовая модель, так и квантованные версии NVFP4, FP8 и FP16.

Выводы

Nvidia Nemotron 3 Ultra задает новую планку для агентного ИИ: 5-кратный выигрыш в скорости и до 30% экономии токенов при сохранении точности на длинных контестах. Открытый стек — от весов и данных до рецептов RL и изолированной среды исполнения — дает полный контроль над локальным развертыванием и предлагает разработчикам полную свободу в использовании передовой LLM. Параллельный выпуск Content Safety и мультиязычного ASR замыкает периметр безопасности и голосового интерфейса, превращая семейство Nemotron в готовую платформу для продакшен‑агентов, способных часами рассуждать, пользоваться инструментами и не терять нить разговора на миллионе токенов контекста.

Автор:

Serverflow