NVIDIA представила Nemotron 3 Nano Omni — открытая, мультимодальная LLM для создания эффективных ИИ-агентов

29.04.2026

~ 2 мин

1151

Простой

Новости

Введение

NVIDIA выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет в одной архитектуре обработку видео, аудио, изображений и текста при объеме в 30 миллиардов параметров на архитектуре MoE. Nemotron 3 Nano Omni предназначена построение быстрых и точных ИИ-агентов для корпоративных задач: от обслуживания клиентов и анализа документов до автоматизации графических интерфейсов. Модель Nemotron 3 Nano Omni призвана заменить связки из нескольких специализированных нейросетей, снижая задержки и стоимость владения при масштабном развертывании.

Подробнее о Nemotron 3 Nano Omni

Модель Nemotron 3 Nano Omni выполнена в гибридной архитектуре Mamba2-Transformer класса Mixture-of-Experts с 30 миллиардами общих и 3 миллиардами активных параметров (30B-A3B). Визуальная информация обрабатывается кодировщиком CRADIO v4-H, а звуковая — моделью Parakeet. Поддерживается контекст до 256 тысяч токенов, что позволяет удерживать в памяти длинные документы, видео до двух минут в разрешении 1080p с частотой дискретизации до одного кадра в секунду и аудио продолжительностью до одного часа. Входные форматы включают видео (mp4), аудио (wav, mp3), изображения (jpeg, png) и текст. Работа модели ограничена английским языком, однако это можно исправить с помощью дообучения с помощью корпуса данных на соответствующем языке.

Архитектура ИИ-модели Nemotron 3 Nano Omni. Источник: Nvidia.

Nvidia подчеркивает, что традиционные агентные платформы вынуждены запускать отдельные модели для зрения, речи и языка, последовательно передавая результаты между ними. Такой подход увеличивает задержки, теряет контекст при переходе от одной модальности к другой и наращивает вычислительные расходы. Nemotron 3 Nano Omni заменяет всю цепочку одной моделью, которая одновременно воспринимает аудиовизуальные данные и текстовые инструкции. По оценке NVIDIA, это дает до 9-кратного выигрыша в эффективности по сравнению с другими открытыми Omni-моделями при сопоставимом качестве ответа.

Разработка ориентирована на три основные группы рабочих процессов. Агенты, взаимодействующие с графическими интерфейсами, получают цикл восприятия экрана в исходном разрешении 1920×1080 пикселей. В задачах интеллектуальной обработки документов модель интерпретирует диаграммы, таблицы, сканы и скриншоты, что важно для финансового анализа и соблюдения нормативных требований. Распознавание аудиоданных и видеоданных объединяет разные модальности в единую логическую картину, не разбивая контекст на фрагментированные сводки.

Модель дообучалась с использованием Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, Qwen2.5-VL-72B-Instruct и gpt-oss-120b. NVIDIA публикует не только веса, но и наборы данных, и методики обучения, предоставляя предприятиям полную прозрачность и возможность дообучения под собственные задачи через инструменты вроде NVIDIA NeMo. Nemotron 3 Nano Omni доступна для коммерческого использования по условиям “Соглашения об открытых моделях NVIDIA”. Модель доступна в форматах BF16, FP8 и NVFP4

Модель уже доступна на Hugging Face, OpenRouter и build.nvidia.com в виде микросервиса NVIDIA NIM, а также в рамках экосистем облачных партнеров NVIDIA. Поддерживаются движки инференса vLLM, NeMo, Megatron, TensorRT LLM, TensorRT Edge-LLM, llama.cpp, Ollama и SGLang. Благодаря легкой архитектуре возможно стабильное развертывание не только на серверах, в ЦОД и облачных средах, но и на более легком локальном оборудовании — NVIDIA Jetson, DGX Spark, DGX Station.

ИИ-производительность Nemotron 3 Nano Omni в ключевых ИИ-бенчмарках. Источник: Nvidia.

Выводы

Nemotron 3 Nano Omni продолжает стратегию NVIDIA по развитию открытого исходного кода, заполняя нишу нативной, полной мультимодальности в компактной ИИ-модели, что позволит устранить архитектурные ограничения и фрагментацию контекста, которые долгое время оставались узким местом агентных систем. Вместо того чтобы собирать конвейер из нескольких моделей и мириться с потерями контекста, разработчики получают единый компонент, способный одновременно воспринимать и анализировать текст, изображения, голос и видео. Открытая лицензия и поддержка широкого спектра сред выполнения делают модель доступной не только для корпоративных пользователей, но и многочисленных ИИ-энтузиастов.

Автор:

Serverflow