Top.Mail.Ru
Что такое DGX-OS: как устроена серверная ОС NVIDIA для ИИ и HPC-нагрузок | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Уточнение цен временно недоступно. Китайский Новый год. Ответы по товарам «Под заказ» после 25 числа.
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Что такое DGX-OS: как устроена серверная ОС NVIDIA для ИИ и HPC-нагрузок

~ 15 мин
1007
Средний
Статьи
Что такое DGX-OS: как устроена серверная ОС NVIDIA для ИИ и HPC-нагрузок

Введение

Когда Nvidia представила компактный ИИ-суперкомпьютер DGX Spark, все бросились разбирать его производительность, центральный процессор, сетевые возможности, но никто не задумывался, на какой операционной системе он работает. Как оказалось, управляет им ничто иное, как фирменная операционка Nvidia, которая поставляется со вместе с устройствами семейства DGX — DGX OS. Кто-то из вас может подумать: “Ну стоит там проприетарная операционка и стоит, что дальше то? 100% тот же самый Ubuntu, перекрашенная в зеленый…”. Мы, по правде сказать, тоже так подумали, но при детальном разборе выяснилось, что DGX OS все же не так проста, как кажется на первый взгляд. В этой статье специалисты компании ServerFlow расскажут вам, что из себя представляет операционная система DGX OS, что отличает ее от остальных дистрибутивов Linux и какие передовые функции в нее заложены.

Что такое DGX-OS и почему она не "просто Ubuntu"

DGX-OS — это операционная система, которая лежит в основе всей линейки вычислительных платформ NVIDIA DGX — DGX A100, H100, H200, B200, B300, DGX Station A100 и новейших DGX Spark. Несмотря на то что она формально основана на Ubuntu LTS, DGX-OS представляет собой гораздо больше, чем просто “Ubuntu с драйверами”: это законченная инфраструктурная платформа, разработанная для стабильного и воспроизводимого выполнения ИИ и HPC-нагрузок, где каждая версия ядра, драйвера и библиотеки синхронизирована и сертифицирована NVIDIA. Разработчики внесли кучу изменений в ядро Linux, интегрировав в него проприетарные патчи для наиболее эффективной работы GPU-драйверов, NVLink-интерконнектов и NVSwitch-фабрик. Поверх этого слоя предустановлены и тесно интегрированы сервисы DCGM (Data Center GPU Manager), NVSM (NVIDIA System Management) и Fabric Manager, которые обеспечивают мониторинг, управление и балансировку GPU-ресурсов на уровне датацентра. Также DGX OS играет критически важную роль в экосистеме NVIDIA ARM, обеспечивая стабильную, сертифицированную среду для систем на базе процессоров Grace и их комбинаций с GPU Hopper / Blackwell. Она решает типичные несовместимости ARM-сборок, предлагая полностью интегрированный стек NVIDIA.

Интерфейс DGX OS
Интерфейс DGX OS на DGX Spark. Источник: The Register.

Главная цель DGX-OS — создать полностью детерминированную среду, в которой обновления и патчи проходят сертификацию NVIDIA и не нарушают стабильность вычислительного стека. Эта философия делает операционную систему особенно ценной для крупномасштабных кластеров на тысячи GPU, где сбой даже одной ноды может положить сервера облачной нейронки или прервать многомесячное обучение ИИ-модели.

Примечательно, что DGX-OS совсем не нова, ведь ее разработали еще во времена вычислительных систем DGX-1 и DGX-2 — тогда операционка называлась DGX Base OS. Сейчас же Nvidia продвигает версию DGX-OS 7, которая не только перешла на относительно свежие версии ядер Ubuntu 24.04 и Linux 6.8, но и добавила поддержку ARM-платформ NVIDIA Grace и GPU Blackwell, что обеспечивает архитектурную унификацию между x86 и ARM-узлами.

ComfyUI на DGX OS
Работа с ComfyUI на DGX Spark с DGX OS. Источник: The Register.

DGX OS на HGX и MGX

Официально DGX OS распространяется только вместе с системами линейки NVIDIA DGX и не поддерживается на сторонних OEM-платформах HGX. Несмотря на то, что HGX-узлы используют те же GPU-модули, NVSwitch-интерконнекты и архитектурно идентичные бэкплейны, NVIDIA не предоставляет DGX OS как отдельный продукт для интеграторов. Для HGX-серверов (Supermicro, Dell, HPE и т. д.) применяется стандартная экосистема NVIDIA AI Enterprise и GPU Operator, но не DGX OS — она остается частью закрытого DGX-пакета, поставляемого только с фирменным оборудованием.

На платформы NVIDIA MGX (основанные на CPU Grace Hopper GH200 и Grace Blackwell GB200) DGX OS также не распространяется напрямую. MGX позиционируется как модульная OEM-архитектура, и для нее NVIDIA поставляет собственные сборки на базе Ubuntu LTS с интеграцией AI Enterprise, DCGM и NVSM. Хотя DGX OS 7 формально включает ARM-ядро, его использование ограничено только фирменными DGX-системами NVIDIA с процессорами Grace. Для MGX-серверов производители применяют одобренные NVIDIA дистрибутивы, а не тот же образ DGX OS, что в DGX-линейке.

На чем основана DGX-OS: Ubuntu LTS + ядро с патчами NVIDIA

Как мы уже говорили, DGX-OS построена на базе Ubuntu LTS, но имеет кучу модификаций, которые вводились с каждым обновлением операционной системы. К примеру, в DGX-OS 5 на базе Ubuntu 20.04 LTS (Linux 5.4) добавили поддержку A100 и NVSwitch 2, в DGX-OS 6 на базе Ubuntu 22.04 LTS (Linux 5.15) ввели оптимизацию под H100 и NVLink 4, а в последней DGX-OS 7 на базе Ubuntu 24.04 LTS (Linux 6.8) завезли работу на ARM.

Помимо ядра, NVIDIA заменяет несколько ключевых системных пакетов Ubuntu. Их собственный репозиторий dgx-release включает модифицированные пакеты initramfs, модули для работы GPU, NVSwitch firmware и скрипты для автоматического обнаружения топологии NVLink. Версии glibc и systemd следуют базовому LTS-выпуску Ubuntu, но включают патчи для совместимости с GPU драйверами и MIG-партиционированием. Система также включает Ubuntu Pro ESM (Extended Security Maintenance) и использует kernel-pinning: обновление ядра возможно только в пакетах, протестированных самой NVIDIA, что исключает несовместимости между драйверами и модулями.

И это — лишь малая часть всех улучшений. В DGX OS столько различных модификаций, что стандартную Ubuntu в ней уже почти не разглядеть. Слышали про парадокс корабля Тесея? Если заменить у легендарного корабля Тесея заменить все доски, мачты, канаты, якоря и т.д. — остается ли корабль тем же самым или становится совершенно новым? Вот тут та же самая дилемма.

Информация о ядре DGX OS
Информация о ядре Ubuntu Linux, лежащем в основе DGX OS.

GPU-стек в DGX-OS: CUDA, NCCL, TensorRT и DCGM из коробки

DGX-OS — это продукт премиального уровня, поэтому Nvidia закидали бы гнилыми помидорами, если бы в нее не вшили полный, преднастроенный GPU-стек. В него входят драйверы серий R535, R570 и R580, а также актуальные версии CUDA (12 и 13), cuDNN 9, TensorRT 10, NCCL 2.28 и NVSHMEM. Fabric Manager и прошивки NVSwitch интегрированы в систему и управляются службами NVSM. DGX-OS также включает поддержку технологий GPUDirect Storage, MPS (Multi-Process Service) и MIG (Multi-Instance GPU) на уровне ядра, что позволяет балансировать нагрузку между несколькими ИИ-моделями без потери производительности.

Все компоненты в стеке строго синхронизированы, а обновления поставляются единым пакетом через официальный репозитории NVIDIA. Благодаря этому разработчики не сталкиваются с типичными проблемами Linux-окружений, где версии CUDA и несовместимы с Python или PyTorch. Например, портативная станция DGX Spark с CPU Grace и GPU Blackwell использует тот же DGX-OS 7, что и кластерные сервера DGX B200. Таким образом, код, написанный и отлаженный на Spark, можно масштабировать на кластер без ошибок и пересборок.

Каталог инструкций DGX OS
Каталог инструкций для работы с DGX OS. Источник: The Register.

Сетевой стек: InfiniBand, RoCE и MOFED в комплекте

Вы ведь в курсе, что DGX Spark можно объединять в кластеры? Так вот, в этом также есть заслуга проприетарной операционки Nvidia. DGX-OS изначально предназначена для систем с высокопроизводительными сетевыми адаптерами NVIDIA ConnectX, поэтому в поставку входит стек DOCA OFED 2.9 (или Mellanox OFED 23.x). Это гарантирует работу InfiniBand и RoCE, а также GPUDirect RDMA для прямого обмена данных между GPU узлами. Режим RoCE включен по умолчанию для Ethernet, а все модули ядер подписаны для совместимости с Secure Boot. Ядро содержит дополнительные настройки для достижения максимально низких задержек — ECN-параметры, IRQ-affinity и IOMMU pass-through. DGX-OS строго контролирует совместимость между версиями ядра, OFED и прошивками сетевых адаптеров, что исключает ситуации, когда новое ядро ломает RDMA-путь.

Контейнеризация и оркестрация: NGC, Docker и Slurm без боли

DGX-OS поставляется с настроенной средой контейнеризации. В состав входит nvidia-container-toolkit 1.17+, Docker и containerd, которые уже сконфигурированы для GPU-контейнеров. Kubernetes-окружения поддерживаются через NVIDIA GPU Operator, а Slurm через Enroot и Pyxis. Таким образом, кластером на DGX-OS можно управлять как через контейнерный оркестратор, так и через классический планировщик HPC. Интеграция с NVIDIA GPU Cloud (NGC) работает из коробки: достаточно выполнить docker run --gpus all nvcr.io/..., чтобы запустить готовый контейнер с PyTorch, TensorFlow или Megatron-LM. DGX-OS служит нижним уровнем для кластерной платформы Base Command и пакета NVIDIA AI Enterprise, которые расширяют возможности управления и виртуализации на уровне организации.

Обновления и жизненный цикл DGX-OS

Перед каждым обновлением операционной системы, Nvidia тщательно проверяет апдейты на все косяки, поэтому Релизы DGX-OS выходят всего лишь дважды в год — обычно в феврале и августе, а поддержка каждой ветки сохраняется до 10 лет. Обновления приходят через официальные репозитории NVIDIA и включают pinning для драйвера, CUDA и ядра. Это делает команду apt upgrade максимально безопасной: пользователь получает только проверенные комбинации пакетов. Попытка установить внешние ядра или репозитории может привести к полному разрыву стека MOFED и GPU-драйверов, поэтому NVIDIA рекомендует (строжайше запрещает) использовать только официальные каналы, чтобы вы ни в коем случае ны пытались кастомизировать их разработку.

Доступ, лицензии и поддержка

Как вы уже могли догадаться, DGX-OS не распространяется отдельно: она входит в комплект оборудования DGX и доступна через портал NVIDIA Enterprise Support или NGC. Установка возможна только на сертифицированные системы с идентифицированным платформенным контроллером. Пакет AI Enterprise используется для виртуализированных или OEM-сценариев, но сама DGX-OS остается фундаментом для их дальнейшего развертывания. Поддержка Secure Boot и соответствие требованиям FIPS и ESM достигаются через Ubuntu Pro, что важно при работе с DGX-OS в таких критически важных средах, как корпоративные и государственные инфраструктуры.

Установка DGX OS v5.4.0
Окно установки DGX OS v5.4.0.

Поддерживаемые платформы: от DGX H100 до Spark на Grace

DGX-OS унифицирована для всех актуальных платформ NVIDIA. Она работает на DGX A100H100H200, DGX Station A100 и новом DGX Spark на архитектуре Grace / Blackwell. Соответствие поколений и минимальных версий выглядит так:

Платформа

Минимальная версия DGX-OS

DGX A100

5.1.3+

DGX H100

6.0.11+

DGX H200

6.3.2+

DGX Station A100

5.2.1+

DGX Spark (Grace / Blackwell)

7.2.3+


Одна ОС для x86 и ARM-архитектур — это одна из главных фишечек DGX OS, которая позволяет разворачивать одни и те же модели или инструменты как на компактных Spark, так и на серверных DGX B200, не внося никаких изменений.

Почему важно использовать DGX-OS, а не Ubuntu с драйверами

Возможно, кто-то из вас уже потирает руки и представляет, как сейчас возьмет голую Ubuntu и накатит на нее пару драйверов, слепив фирменную DGX-OS без мам, пап и кредитов на покупку оборудования DGX. На самом деле, системный администратор, DevOps-инженер или ML-специалист при наличии прямых рук все-таки может самостоятельно собрать корректное кружение на Ubuntu, сверив версии CUDA, драйверов, NCCL и ядра, а также применив соответствующие pinned-пакеты. Однако, весь будет крайне трудоемким, так как он требует ручной синхронизации и регулярных бэкапов, особенно при обновлениях. Другими словами, DGX-OS — это не столько единственное решение для работы с DGX-оборудованием, а скорее корпоративный шорткат, который сэкономит вам огромное количество времени и снизит риски несовместимости, обеспечивая корректную работу ПО из коробки.

Выводы

DGX-OS — решение, которое подойдет только тем, кто строит или эксплуатирует ИИ-инфраструктуру в производственной среде на базе оборудования Nvidia. Для DevOps, ML-инженеров и системных администраторов эта операционка — настоящая лакомка, ведь на платформе уже есть контейнеры NGC, интегрированный мониторинг, оптимизированный сетевой стек, никаких проблем с совместимостью драйверов, NVLink, NVSwitch, ведь все работает из коробки, а для переноса ПО нужно нажать всего пару кнопок. И все это работает максимально стабильно, причем, как в компактных мини-ПК, так и в огромных ИИ-кластерах на тысячи графических ускорителей.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)