NVIDIA MIG: Главная альтернатива vGPU

09.08.2025

~ 15 мин

4022

Средний

Статьи

Введение

Мы рассказали вам все о передовой технологии виртуального разделения мощностей видеокарт vGPU. Однако в арсенале Nvidia есть еще одна уникальная технология, позволяющая дробить VRAM и вычислительные ресурсы GPU, но не в гипервизоре, а на аппаратном уровне — Nvidia MIG.

Концепция Nvidia MIG

Технология MIG, которая впервые появилась в архитектуре Nvidia Ampere, позволяет на аппаратном уровне разделять вычислительные мощности профессионального ИИ-ускорителя на несколько полностью изолированных экземпляров, называемых MIG-инстансами. Каждому инстансу выделяются его собственные ресурсы: определенное количество потоковых мультипроцессоров (SMs), определенный объем видеопамяти, пропускную способность памяти и кэш, аппаратные планировщики задач и движки копирования данных. Аппаратная изоляция — ключевая особенность MIG. Она обеспечивает высокую производительность (QoS) для каждого инстанса, так как активность в одном инстансе не влияет на другие, полную защиту от сбоев и повышенный уровень безопасности, поскольку ошибка или компрометация одного инстанса не затрагивает соседние или хост-систему.

Визуализация концепции технологии Nvidia MIG. Источник: Nvidia.

Все это необходимо для максимальной эффективности использования ресурсов профессиональных GPU (Ampere, Hooper, Blackwell) в гетерогенных вычислительных средах, например, облачных инфраструктурах, серверных кластерах и ИИ-ориентированных системах. При этом, Nvidia MIG не поддерживает графические API, например, OpenGL, Vulkan и так далее. Также не поддерживается обмен данными между графическими процессорами через PCIe или NVLink и межпроцессное взаимодействие CUDA между экземплярами GPU. Акцент MIG на разделении именно вычислительных мощностей объясняется не только сферой ее использования, но и слабыми графическими ядрами в совместимых ИИ-ускорителях.

Единственным исключением являются профессиональные видеокарты серии RTX Pro 6000 Blackwell, в которых определенные профили MIG поддерживают графику, что значительно расширяет спектр их применения, совмещая возможность разделения вычислительной мощности и виртуализацию графики.

Получение доступа к Nvidia MIG

В отличие от технологии vGPU, для использования которой требуются специальные лицензии (vApps, vPC, vWS, vCS), технология MIG не требует покупки дополнительных лицензий на ПО виртуализации от NVIDIA. Доступ к функциональности MIG предоставляется через стандартные LTS-драйверы корпоративного уровня (начиная с версии R450) для поддерживаемых GPU. Это существенно снижает сложность лицензирования и совокупную стоимость владения при развертывании MIG. Однако критически важно, что сама физическая GPU должна относиться к поддерживаемым серверным моделям, так как потребительские видеокарты не поддерживают технологию MIG. Примечательно, что Nvidia MIG также может работать совместно с vGPU поверх поддерживаемых гипервизоров, обеспечивая максимальную гибкость при работе в высоконагруженной вычислительной инфраструктуре.

Список поддерживаемых видеокарт

Делимся списком видеокарт, поддерживаемых технологией Nvidia MIG:

Nvidia A30.
Nvidia A100.
Nvidia H100.
Nvidia H200.
Nvidia B200.
Nvidia GB200.
Nvidia RTX PRO 5000 Blackwell (Server/Workstation).
Nvidia RTX PRO 6000 Blackwell (Server/Workstation).

Профили Nvidia MIG

Nvidia MIG поддерживает разные профили для каждой совместимой видеокарты коммерческого уровня. С полным списком профилей можно ознакомиться в разделе NVIDIA MIG User Guide, а сейчас рассмотрим распределение профилей MIG на примере ИИ-ускорителя B200 180GB.

Профили	Доля памяти	Выделение ядер SMs	Выделение кэша L2	Количество инстансов
Профили	Доля памяти	Выделение ядер SMs	Выделение кэша L2	Количество инстансов
MIG 1g.23gb	1/8	1/7	1/8	7
MIG 1g.23gb+me	1/8	1/7	1/8	1 (один профиль размером 1 ГБ может содержать медиафайлы)
MIG 1g.45gb	2/8	1/7	2/8	4
MIG 2g.45gb	2/8	2/7	2/8	3
MIG 3g.90gb	4/8	3/7	4/8	2
MIG 4g.90gb	4/8	4/7	4/8	1
MIG 7g.180gb	Полностью	Полностью	Полностью	1

Конфигурации профилей MIG на примере ИИ-ускорителя B200. Источник: Nvidia.

Стоит объяснить, что не очевидное разделение памяти в некоторых профилях B200 объясняется тем, что каждый профиль предназначен для определенных сценариев использования, благодаря чему пользователи могут удобно распределять ресурсы одного GPU для выполнения разных типов операций.

Требования для использования Nvidia MIG

Чтобы успешно развертывать и эксплуатировать возможности технологии NVIDIA MIG, необходимо соблюдать ряд четких требований к аппаратному и программному обеспечению, а также к конфигурации самой системы. Главное ограничение — поддерживаемые GPU. Технология NVIDIA MIG совместима только с серверными графическими процессорами на базе архитектуры Ampere, Hooper и Blackwell, поскольку эти чипы имеют особую аппаратную логику, интегрированную в GPU. Попытки активировать MIG на GPU предыдущих поколений (Volta, Turing) или на потребительских картах GeForce RTX, будут безуспешны. Многие могут подумать, что архитектура Ada Lovelace, будучи продолжением архитектуры Ampere, также должна иметь аппаратную логику для поддержки MIG, однако на деле эта архитектура была ориентирована в первую очередь на потребительский сегмент рынка, вследствие чего решения на базе Ada Lovelace несовместимы с MIG. Кроме того, среда выполнения и инструментарий CUDA Toolkit должны быть версии 11.0 или выше, так как именно в этой версии была добавлена поддержка работы приложений с MIG-инстансами. Для управления MIG (создание, удаление инстансов, мониторинг) потребуется доступ к инструментам командной строки, таким как nvidia-smi с расширенными возможностями MIG (NVIDIA DCGM), или API управления. В сложных средах оркестрации через Kubernetes необходима установка и настройка соответствующих плагинов и операторов (например, NVIDIA GPU Operator, компоненты MIG Manager).

Поддерживаемые ОС и гипервизоры

На уровне bare-metal MIG полностью поддерживается основными Linux-дистрибутивами, включая Red Hat Enterprise Linux (RHEL), CentOS, Ubuntu Server, SUSE Linux Enterprise Server (SLES) и их совместимыми модификациями. Критически важно, чтобы ядро ОС и системные библиотеки были совместимы с требуемыми версиями драйверов NVIDIA. Если использовать технологию MIG совместно с гипервизором, то это можно реализовать через системы PCIe Passthrough (или SR-IOV, если поддерживается гипервизором). Благодаря этому целый MIG-инстанс напрямую передается гостевой виртуальной машине, однако при таком сценарии потребуется настройка технологии IOMMU/VT-d и использование корректной конфигурации гипервизора. Для контейнерных сред MIG интегрируется через NVIDIA Container Toolkit (ранее nvidia-docker2). Этот инструментарий позволяет назначать конкретные MIG-инстансы (или их части) контейнерам Docker или Podman через специфические флаги запуска или переменные окружения (например, NVIDIA_VISIBLE_DEVICES). Интеграция с оркестраторами, особенно Kubernetes, обеспечивается с помощью Device Plugins и специализированных операторов, таких как NVIDIA GPU Operator, которые автоматизируют управление MIG-инстансами и их представление в виде запрашиваемых ресурсов для подов Kubernetes.

Сценарии использования Nvidia MIG

Технология MIG наиболее востребована в сценариях, где критически важны аппаратная изоляция ресурсов, гарантированная высокая производительность и безопасность при одновременном обслуживании множества небольших или средних рабочих нагрузок на одном мощном ИИ-ускорителе:

Облачные сервисы (CSP): Предоставление клиентам выделенных мощностей GPU как услуги (GPUaaS) с жесткими гарантиями SLA по производительности и полной изоляцией между арендаторами.
Масштабный инференс ИИ: Параллельное выполнение большого количества запросов вывода (инференса) моделей искусственного интеллекта, особенно с небольшим или умеренным количеством параметров, на одной GPU с небольшой задержкой.
Разделяемые вычислительные кластеры: Эффективное и безопасное распределение ресурсов GPU между множеством пользователей, исследовательских групп или задач в средах оркестрации, таких как Kubernetes, OpenShift, Slurm или Apache Mesos. Такому сценарию использования MIG также сопутствует поддержка GPUDirect RDMA непосредственно в выделенных инстансах.
Разработка и тестирование: Предоставление разработчикам и тестировщикам выделенных, изолированных долей мощностей GPU для отладки, профилирования и запуска задач без необходимости выделения целой видеокарты.
Микросервисные архитектуры ИИ: Развертывание множества небольших, специализированных микросервисов, выполняющих задачи ИИ (предобработка, вывод специфических моделей, постобработка), изолированно работающих на ресурсах одной физической GPU.
Запуск устаревших или изолированных приложений: Изоляция приложений, требующих старых версий CUDA или библиотек, на отдельных MIG-инстансах для избежания конфликтов зависимостей.

Nvidia MIG vs Nvidia vGPU: Что лучше?

Несмотря на то, что обе технологии NVIDIA MIG и vGPU решают задачи разделения ресурсов GPU, они фундаментально различаются архитектурой и сценариями использования. MIG обеспечивает жесткую сегментацию ресурсов графического ускорителя на аппаратном уровне, включая полную изоляцию виртуальных машин друг от друга и гарантирует предсказуемый уровень производительности, что критически важно при развертывании в гетерогенных средах, но негативно сказывается на возможностях масштабирования. В то же время технология vGPU реализует виртуализацию на уровне гипервизора: память статически разделена между виртуальными машинами, но вычислительные ядра распределяются лишь временно, что позволяет более гибко масштабировать количество виртуальных машин, однако производительность рабочих столов может коллебаться, если ВМ будут конкурировать за ресурсы. В сценариях с длительными CUDA-операциями без прерываний (инференс ИИ, HPC-расчеты) MIG демонстрирует преимущество благодаря аппаратной изоляции. Однако для задач с частым чередованием вычислений и I/O-операций (шифрование IPSec, рендеринг графики) vGPU оказывается эффективнее: динамическое распределение ядер обеспечивает на 15–20% более высокую производительность. При этом, аппаратные требования к использованию MIG намного строже, поскольку технология работает на меньшем количестве ИИ-ускорителей, а vGPU совместима даже с legacy-устройствами. В то же время для использования MIG не требуется оплата лицензий vApps, vPC, vWS и vCS, а vGPU нуждается в них. Несмотря на все это, Nvidia продвигает MIG не как замену vGPU, а как решение, которое можно совместить с vGPU в одной среде, переключаясь между этими режимами по мере необходимости, поскольку vGPU является гораздо более функциональным решением, которое может работать как с вычислениями, так и с графикой.

Схема физического разделения вычислительных ресурсов GPU при использовании технологии Nvidia MIG. Источник: Nvidia.

Выводы

NVIDIA MIG представляет собой не просто альтернативу vGPU, а принципиально иной подход к разделению ресурсов GPU. В то время как vGPU предлагает гибкую виртуализацию на уровне гипервизора, MIG обеспечивает аппаратную изоляцию ресурсов (вычислительных ядер, памяти, пропускной способности и т.д) внутри одной физической GPU. Это делает MIG незаменимым решением для сред, где абсолютный приоритет отдается гарантированной высокой производительности, полной изоляции ВМ и безопасности данных между разными клиентами. Однако важно понимать, что для использования MIG требуются гораздо более дорогостоящие, профессиональные ИИ-ускорители, что делает эту технологию решением для средних и крупных компаний, а также исследовательских центров, занимающихся работой с искусственным интеллектом и суперкомпьютерными вычислениями.

Автор:

Serverflow