Компания Nvidia сдержала свое обещание на Computex 2026 и официально представила новое семейство моделей Nemotron 3 Ultra — передовую нейросеть на архитектуре MoE с 550 миллиардов общих и 55 миллиардов активных параметров, спроектированная как интеллектуальный диспетчер для долгоживущих ИИ-агентов. Вместе с основной моделью Nemotron 3 Ultra, Nvidia также вывела два сопутствующих компактных решения: Content Safety на 4 млрд параметров для фильтрации опасного контента на 12 языках и потоковый Nemotron 3.5 ASR, распознающий 40+ языков с задержкой менее 100 мс. Все нейросети имеют полностью открытые веса и доступны на Hugging Face, а также различные среды развертывания Nvidia.
Подробнее о Nemotron 3 Ultra 550b
Передовая MoE-модель Nemotron 3 Ultra 550b создана для координации сложных многошаговых процессов в ИИ-агентных пайплайнах. Идея в том, чтобы тяжелая модель включалась только на этапах глубокого анализа, планирования и принятия решений внутри агентного роя, а рутинные вызовы инструментов и проверку отдавать более мелким, легким моделям. Это радикально снижает расход токенов и время отклика ИИ-агентов. Nemotron 3 Ultra 550b, как и другие нейросети семейства Nemotron 3, базируется на гибридной архитектуре Transformer-Mamba, где трансформерные слои занимаются извлечением данных, а альтернативные слои Mamba работают с длинными последовательностями. Квантование NVFP4 дает возможность использовать одну и ту же контрольную точку на трех поколениях графических процессоров Nvidia (Hopper, Blackwell и Ampere), при этом на Blackwell достигается пятикратный прирост пропускной способности по сравнению с BF16. Использование LatentMoE оптимизирует маршрутизацию между рассуждениями, кодом и вызовами инструментов, а мультитокеновое предсказание ускоряет генерацию длинных цепочек ответов.
На агентном бенчмарке PinchBench модель набирает 91%, сравнявшись с триллионной Kimi K2.6 и опередив Qwen3.5 (89%) и GLM 5.1 (84%). В EnterpriseOps-Gym на долгосрочное планирование результат достигает 33%, в Terminal-Bench 2.0 — 54%, в IFBench на следование инструкциям — 82%, в ProfBench — 56%. Контекстное окно Nemotron 3 Ultra 550b достигает 1 миллиона токенов, тогда как конкуренты с аналогичным числом параметров ограничены 256 тысячами токенов контекста. По данным Artificial Analysis, Nemotron 3 Ultra 550b генерирует ответы в 5 раз быстрее других открытых моделей того же класса и остается крайне эффективным решением где требуется как точность, так и скорость инференса скорость. Затраты токенов на задачу снижаются примерно на 30%, что подтверждено на SWE-bench и Terminal-Bench 2.0.
Стоимость использования Nemotron 3 Ultra 550b в сравнении с другими открытыми LLM. Источник: .
Такой эффективности Nemotron 3 Ultra 550b удается добиться не только благодаря архитектурным инновациям, но и внушительном багаже данных для предобучения — 10 триллионов токенов основного пуля и 212 миллиардов дополнительных токенов под специализированные задачи. Пост-тренировочный пакет также включает настройку SFT и масштабное RL-дообучение. При этом, весь датасет для обучения Nemotron 3 Ultra 550b выложен в открытый доступ вместе с весами нейросети.
Помимо Nemotron 3 Ultra 550b, Nvidia дополнила релиз выпуску моделей Nemotron 3.5 Content Safety и Nemotron 3.5 ASR. Первая занимается интеллектуальной модерацией более 23 категорий опасного контента, обрабатываемого основной LLM, с поддержкой использования пользовательских политик и логических цепочек, а вторая потоковая нейросеть с задержкой менее 100 мс.
Nemotron 3 Ultra 550b и дополнительные модели доступны для развертывания как вручную, так и через среды Hermes Agent, OpenClaw, OpenShell и NemoClaw. Поддерживается пользовательская настройка через NeMo. Также Nemotron 3 Ultra доступен как NIM‑микросервис. Веса и датасеты Nemotron 3 Ultra 550b распространяются под лицензией OpenMDW-1.1 Linux FoundationЮ веса можно скачать через Hugging Face.
Модели выпущены под лицензией OpenMDW-1.1 Linux Foundation. Ultra доступна как NIM-микросервис и через партнеров: AWS, CoreWeave, DeepInfra, DigitalOcean, Fireworks AI, Google Cloud, Microsoft Foundry, Together AI и других. Попробовать можно на Perplexity Pro, OpenRouter или build.nvidia.com. Добступна как базовая модель, так и квантованные версии NVFP4, FP8 и FP16.
Выводы
Nvidia Nemotron 3 Ultra задает новую планку для агентного ИИ: 5-кратный выигрыш в скорости и до 30% экономии токенов при сохранении точности на длинных контестах. Открытый стек — от весов и данных до рецептов RL и изолированной среды исполнения — дает полный контроль над локальным развертыванием и предлагает разработчикам полную свободу в использовании передовой LLM. Параллельный выпуск Content Safety и мультиязычного ASR замыкает периметр безопасности и голосового интерфейса, превращая семейство Nemotron в готовую платформу для продакшен‑агентов, способных часами рассуждать, пользоваться инструментами и не терять нить разговора на миллионе токенов контекста.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.