Nvidia HGX, DGX и MGX: что это такое и в чем их отличия?

22.10.2024

~ 15 мин

3343

Простой

Статьи

Содержание:

Введение
Что такое Nvidia DGX?

Стоимость платформ DGX

Что такое HGX?

Серверы на платформе Nvidia HGX
Поколение Ampere
Поколение Hooper
Поколение Blackwell

Что такое Nvidia MGX?
Преимущества и недостатки платформы MGX
Заключение

Введение

Компания Nvidia — это амбассадор графических решений всего рынка полупроводниковых систем. Если раньше Nvidia ассоциировалась преимущественно со сферой гейминга, то сейчас ситуация кардинально поменялась — Nvidia активно осваивает новые рынки, такие как высокопроизводительные вычисления и разработка искусственного интеллекта. Именно для удовлетворения потребностей этих секторов существуют платформы HGX, DGX и MGX. В этой статье мы поговорим об особенностях этих платформ, какими характеристиками они обладают, в чем их преимущества, недостатки и основные отличия друг от друга.

Что такое Nvidia DGX?

Nvidia DGX — это серия флагманских платформ, созданных Nvidia для обработки данных в сфере высокопроизводительных вычислений и разработки искусственного интеллекта. DGX-системы представляют собой готовые мощные серверы, компоненты для которой Nvidia выбирает самостоятельно. DGX-серверы объединяют в себе несколько графических процессоров с высокой производительностью, сетевые карты ConnectX с большой пропускной способностью и серверные CPU, а также другие компоненты, которые в совокупности позволяют достигать высокой производительности при выполнении сложных задач, таких как глубокое обучение нейронных сетей. Кроме того, DGX активно используется для симуляций и моделирования в научных исследованиях. На основе DGX-систем компания Nvidia выпускает другие платформы с возможностью кастомизации, о которых мы расскажем ниже.

Система Nvidia DGX B200 задает новые стандарты корпоративных вычислений в области ИИ за счет рекордного объема памяти в 1440 GB HBM3. Источник: Nvidia.

Стоимость платформ DGX

На сегодняшний день, на рынке можно найти несколько актуальных моделей серверов Nvidia DGX, основанных на последних архитектурах GPU, таких как Ampere и Hopper. Например, Nvidia DGX H200, который построен на базе графических процессоров H200 с архитектурой Hopper, является одним из наиболее востребованных решений для задач машинного обучения и искусственного интеллекта. В среднем, цена такого сервера может варьироваться от $300,000 до $400,000, в зависимости от конфигурации, количества GPU, объема памяти и других характеристик.

Однако, стоит отметить, что доступность серверов DGX ограничена. Их количество на рынке сравнительно невелико, и основная доля продаж приходится на HGX-платформы — около 90% всех продаж серверов Nvidia. Это связано с тем, что HGX-конфигурации, предлагающие гибкость и масштабируемость, чаще всего используются в корпоративных и исследовательских средах, где требуются решения для масштабируемого ИИ и высокопроизводительных вычислений с возможностью конфигурирования компонентов.

DGX сервера Nvidia содержат до 8-ми передовых ИИ ускорителей, а также специализированные NVSwitch для реализации высокоскоростного интерконнекта между GPU. Источник: Nvidia.

Что такое HGX?

Nvidia HGX – это специализированный аппаратный GPU модуль, включающий SXM ускорители, который Nvidia предлагает партнёрам для создания кастомных HGX серверов. В этих серверах Nvidia не предписывает выбор CPU или DPU, полностью отдавая на аутсорс разработку сервера. Благодаря этому бренды, такие как Supermicro, HPE, Dell, Lenovo и H3C, могут создавать собственные вариации самых производительных GPU серверов, адаптируя их под запросы своих клиентов.

Отдельно стоит отметить, что модуль HGX лежит в основе серверов DGX в качестве платы с GPU. Таким образом, можно сказать, что Nvidia продаёт "сердце" сервера, чтобы еще больше популяризировать свои разработки.

Внешний вид модуля HGX. Сам модуль представляет собой монолитную печатную плату с 8 ускорителями. Именно этот элемент предназначается для установки в партнерские сервера HGX или в фирменные DGX. Источник: Nvidia.

Серверы на платформе Nvidia HGX

Платформа NVIDIA HGX доступна в нескольких конфигурациях, которые можно настроить в зависимости от требований пользователей:

Поколение Ampere

HGX A100 — это решение, основанное на графических процессорах архитектуры Ampere, которое вышло в июне 2021 года и предназначенное для глубокого обучения нейронных сетей, аналитики больших данных и инференса ИИ. Nvidia HGX A100 обеспечивает высокую вычислительную производительности, большую пропускную способность памяти и поддерживают форматы вычислений с пониженной точностью, что делает ее оптимальным решением для разработчиков ИИ, стремящихся максимизировать производительность и эффективность своих передовых моделей искусственного интеллекта. Поддерживает конфигурацию только с воздушным охлаждением. Характеристики платформы HGX A100 в стандартной конфигурации от Nvidia включают:

Графический процессор — до 8-ми GPU Nvidia A100 80GB;
Объем памяти — до 640GB HBM2.

Supermicro GPU SuperServer SYS-420GP-TNAR+ на базе ускорителей A100. Источник: Supermicro.

Поколение Hooper

HGX H100 и H200 — на данный момент последняя из доступных на рынке версий HGX на основе GPU архитектуры Hooper, которая вышла в ноябре 2023 года. Эти решения обеспечивает увеличение пропускной способности и производительности при работе с самыми сложными задачами ИИ, включая обучение больших моделей искусственного интеллекта и выполнение вычислений в реальном времени, а также поддерживают формат вычислений с пониженной точностью FP8. В версии H100 появилась особая конфигурация под названием «Delta Next», имеющая жидкостную систему охлаждения вместо воздушной. Характеристики актуальной платформы HGX H200 в стандартной конфигурации от Nvidia включают:

Графический процессор — до 8-ми GPU Nvidia H200 141GB;
Объем памяти — до 1128GB HBM3E.

Система DELL PowerEdge XE9680, оснащена 8-ю ускорителями H200, процессорами Xeon Platinum, что делает ее идеальным выбором для задач машинного и глубокого обучения ИИ. Источник: DELL.

Поколение Blackwell

HGX B100 и B200 — HGX платформа Nvidia на основе архитектуры Blackwell, продукты которой выйдут на рынок в первом квартале 2025 года. Эти серверные системы будут включать в себя новейшие GPU B100 и B200, которые станут самыми передовыми решениями в сфере разработки ИИ и высокопроизводительных вычислений за счет выдающейся скорости обработки миллионов параметров искусственного интеллекта, а также поддержки новых форматов вычислений с пониженной точностью, например, FP4 и FP6. На данный момент нет известных характеристик передовой платформы HGX B200, однако, можно сделать вывод о будущих параметрах, опираясь на характеристики анонсированных систем:

Графический процессор — до 8-ми GPU Nvidia B200 180GB;
Объем памяти — до 1440GB HBM3E.

Мощнейшая система GPU A+ Server AS -A126GS-TNBR от Supermicro основанная на базе HGX модуля B200 8-GPU и процессоров AMD EPYC Turin. Источник: Supermicro.

Что такое Nvidia MGX?

Nvidia MGX — это новая, модульная платформа для серверных решений, разработанная Nvidia и представленная в 2023 году. Nvidia MGX уникальна тем, что эта платформа позволяет потребителям полностью конфигурировать подходящее под их нужды серверное решение — сначала потребитель выбирает необходимую под текущие требования архитектуру шасси, а затем подбираются CPU, GPU и DPU, а также другие компоненты системы в нужной конфигурации.

Ввиду компактности суперчипов от Nvidia появляется возможность установки сразу нескольких нод в одно серверное шасси. Источник: Supermicro.

В отличие от платформ HGX, Nvidia MGX создавать конфигурации с разными поколениями GPU, поэтому потребителям не обязательно покупать новое оборудование для интеграции более современных графических ускорителей. Также в системах MGX поддерживается интеграция центральных процессоров Nvidia Grace, которые не поддерживались в предыдущих поколениях систем HGX. Такая возможность гибкой настройки оборудования, позволяет создавать более 100 разных конфигураций сервера под решения огромного спектра задач, что делает эти решения полностью универсальными — Nvidia MGX могут адаптированы под разработку ИИ, HPC-вычисления, развертывание облачных решений и облачный гейминг, работу с видеоматериалами и даже интеграцию в периферийные системы.

Анонсированная системная плата Nvidia GB200 NVL2 станет основой для MGX серверов и даст возможность объединить вычислительные мощности 2x CPU Grace и 2x GPU Blackwell сразу в одной системе. Источник: Nvidia.

Преимущества и недостатки платформы MGX

Главным преимуществом MGX является её универсальность. В отличие от более специализированных решений, таких как HGX, которые больше ориентированы на ИИ и HPC, MGX можно использовать в различных отраслях, начиная от дата-центров и заканчивая здравоохранением и даже краевыми вычислениями. Благодаря модульной архитектуре, потребители могут собирать системы, которые точно соответствуют их текущим вычислительным потребностям.

Еще одно преимущество MGX — это экономия на стоимости внедрения. Производители серверов могут создавать собственные решения, оптимизированные для развертывания конкретных приложений, избегая переплат за приобретение компонентов, которые в данный момент не требуются. Такая гибкость особенно полезна для небольших компаний или организаций с ограниченным бюджетом.

Однако, несмотря на все свои преимущества, у MGX есть и недостатки. Один из ключевых недостатков MGX-платформ — это ограниченная поддержка NVLink. Связь NVLink действует только в рамках Superchip, а за его пределами соединение с ускорителями осуществляется посредством PCI-E, что снижает скорость обмена данными между GPU. В результате, MGX может быть менее оптимальной для задач, требующих максимальной производительности, таких как глубокое обучение ИИ или задачи, связанные с интенсивной обработкой данных в режиме реального времени. В таких случаях более специализированные платформы, такие как Nvidia HGX, могут оказаться более подходящими, так как они разработаны для обеспечения максимальной производительности для задач ИИ и HPC.

Nvidia MGX — серверная DGX-платформа с возможностью гибкого конфигурирования. Источник: Nvidia.

Заключение

Как мы выяснили, аббревиатуры серверных продуктов Nvidia HGX, DGX и MGX не так просты, как могут показаться на первый взгляд. Nvidia DGX — это лишь общее обозначение бренда готовых серверных решений компании Nvidia, которое объединяет в себе устройства HGX и MGX. В свою очередь, платформы HGX являются целым пластом спецификаций GPU-серверов от Nvidia, которые компании-партнеры могут настраивать под конкретные нужды потребителей в сферах разработки ИИ и высокопроизводительных вычислений. Серверы MGX являются полностью универсальным решением, которые компании-потребители могут настраивать с нуля, адаптируя будущий сервер под одну из 100 возможных конфигураций. Выбор между Nvidia HGX и MGX зависит исключительно от текущих потребностей и бюджета — если Nvidia HGX отлично подойдет для крупных потребителей из сферы разработки передовых нейросетей и высокопроизводительных вычислений, то платформа MGX подойдет для малого и среднего бизнеса, так как гибкая настройка позволяет подобрать компоненты под небольшой бюджет.

Автор:

Serverflow

Nvidia HGX, DGX и MGX: что это такое и в чем их отличия?

Введение

Что такое Nvidia DGX?

Стоимость платформ DGX

Что такое HGX?

Серверы на платформе Nvidia HGX

Поколение Ampere

Поколение Hooper

Поколение Blackwell

Что такое Nvidia MGX?

Преимущества и недостатки платформы MGX

Заключение

Комментарии 0