NVIDIA выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет в одной архитектуре обработку видео, аудио, изображений и текста при объеме в 30 миллиардов параметров на архитектуре MoE. Nemotron 3 Nano Omni предназначена построение быстрых и точных ИИ-агентов для корпоративных задач: от обслуживания клиентов и анализа документов до автоматизации графических интерфейсов. Модель Nemotron 3 Nano Omni призвана заменить связки из нескольких специализированных нейросетей, снижая задержки и стоимость владения при масштабном развертывании.
Подробнее о Nemotron 3 Nano Omni
Модель Nemotron 3 Nano Omni выполнена в гибридной архитектуре Mamba2-Transformer класса Mixture-of-Experts с 30 миллиардами общих и 3 миллиардами активных параметров (30B-A3B). Визуальная информация обрабатывается кодировщиком CRADIO v4-H, а звуковая — моделью Parakeet. Поддерживается контекст до 256 тысяч токенов, что позволяет удерживать в памяти длинные документы, видео до двух минут в разрешении 1080p с частотой дискретизации до одного кадра в секунду и аудио продолжительностью до одного часа. Входные форматы включают видео (mp4), аудио (wav, mp3), изображения (jpeg, png) и текст. Работа модели ограничена английским языком, однако это можно исправить с помощью дообучения с помощью корпуса данных на соответствующем языке.
Nvidia подчеркивает, что традиционные агентные платформы вынуждены запускать отдельные модели для зрения, речи и языка, последовательно передавая результаты между ними. Такой подход увеличивает задержки, теряет контекст при переходе от одной модальности к другой и наращивает вычислительные расходы. Nemotron 3 Nano Omni заменяет всю цепочку одной моделью, которая одновременно воспринимает аудиовизуальные данные и текстовые инструкции. По оценке NVIDIA, это дает до 9-кратного выигрыша в эффективности по сравнению с другими открытыми Omni-моделями при сопоставимом качестве ответа.
Разработка ориентирована на три основные группы рабочих процессов. Агенты, взаимодействующие с графическими интерфейсами, получают цикл восприятия экрана в исходном разрешении 1920×1080 пикселей. В задачах интеллектуальной обработки документов модель интерпретирует диаграммы, таблицы, сканы и скриншоты, что важно для финансового анализа и соблюдения нормативных требований. Распознавание аудиоданных и видеоданных объединяет разные модальности в единую логическую картину, не разбивая контекст на фрагментированные сводки.
Модель дообучалась с использованием Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, Qwen2.5-VL-72B-Instruct и gpt-oss-120b. NVIDIA публикует не только веса, но и наборы данных, и методики обучения, предоставляя предприятиям полную прозрачность и возможность дообучения под собственные задачи через инструменты вроде NVIDIA NeMo. Nemotron 3 Nano Omni доступна для коммерческого использования по условиям “Соглашения об открытых моделях NVIDIA”. Модель доступна в форматах BF16, FP8 и NVFP4
Модель уже доступна на Hugging Face, OpenRouter и build.nvidia.com в виде микросервиса NVIDIA NIM, а также в рамках экосистем облачных партнеров NVIDIA. Поддерживаются движки инференса vLLM, NeMo, Megatron, TensorRT LLM, TensorRT Edge-LLM, llama.cpp, Ollama и SGLang. Благодаря легкой архитектуре возможно стабильное развертывание не только на серверах, в ЦОД и облачных средах, но и на более легком локальном оборудовании — NVIDIA Jetson, DGX Spark, DGX Station.
ИИ-производительность Nemotron 3 Nano Omni в ключевых ИИ-бенчмарках. Источник: .
Выводы
Nemotron 3 Nano Omni продолжает стратегию NVIDIA по развитию открытого исходного кода, заполняя нишу нативной, полной мультимодальности в компактной ИИ-модели, что позволит устранить архитектурные ограничения и фрагментацию контекста, которые долгое время оставались узким местом агентных систем. Вместо того чтобы собирать конвейер из нескольких моделей и мириться с потерями контекста, разработчики получают единый компонент, способный одновременно воспринимать и анализировать текст, изображения, голос и видео. Открытая лицензия и поддержка широкого спектра сред выполнения делают модель доступной не только для корпоративных пользователей, но и многочисленных ИИ-энтузиастов.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.