Релиз Nvidia H200 NVL на OCP Summit 2024: подробности и особенности

26.11.2024

~ 15 мин

3374

Простой

Статьи

Содержание:

Введение
Пустующий рынок PCI-E
Отличия H200 NVL от H200 SXM и H100 NVL

Форм-фактор
Объем памяти
Пропускная способность
TDP
NVIDIA AI Enterprise
Сравнение ИИ-производительности H200 NVL и аналогов

Новый NVlink
Вывод

Введение

16-ого ноября 2024 года состоялась конференция OCP Summit 2024, посвященная последним достижениям в области оборудования для суперкомпьютеров и передовых IT-инфраструктур. На ней выступили представители многих лидирующих производителей современных решений для различных областей рынка, и в их числе была компания Nvidia. Nvidia представила целый ряд интересных и востребованных IT-решений, однако, наиболее интересное из них — ИИ-ускоритель Nvidia H200 NVL. Сегодня мы расскажем вам, какую проблему призван закрыть этот ускоритель, сравним его с аналогами, рассмотрим его характеристики, а также объясним, какие улучшения получила графическая карта Nvidia H200 NVL.

Пустующий рынок PCI-E

Современные вычислительные платформы на базе графических процессоров стали основным инструментом для задач искусственного интеллекта, машинного обучения и обработки больших данных. Однако, вместе с улучшениями производительности, в последние годы развитие GPU было связано с изменениями форм-факторов, ориентированных на специализированные платформы, такие как SXM и OAM, что привело к разделению рынка. Решения SXM, например, широко используются в платформах HGX и DGX, предоставляя высочайшую производительность благодаря непосредственной интеграции графических процессоров в уже подготовленную высокоскоростную инфраструктуру NVLink и NVSwitch. Однако, адаптеры SXM могут интегрироваться только в определенные серверы с поддержкой этих форматов. Решение Nvidia перейти на стандарт SXM обуславливается тем, что это позволило компании не соблюдать ограничения по TDP и выпускать более производительные решения, которые нельзя выпустить в формате PCI-E.

На этом фоне стандарт PCI-E, который долгое время был основным для серверных GPU, стал не так популярен и на нем перестали выходить топовые видеокарты для обучения ИИ. Последней высокопроизводительной картой от Nvidia с поддержкой стандарта PCI-E стал ускоритель H100, который вышел в марте прошлого года. Из-за этого огромное число пользователей и компаний с серверами стандарта PCI-E столкнулись с проблемой интеграции передовых видеокарт с форм факторами SXM и OAM, поскольку для их интеграции нужно закупать новое серверное оборудование. Большинство крупных организаций используют серверы на базе PCI-E из-за их универсальности, доступности и совместимости с существующей инфраструктурой. Однако из-за смещения фокуса производителей на специализированные форматы, выбор современных GPU для этих систем остается крайне ограниченным.

Благодаря своей архитектуре PCI-E GPU серверные платформы не имеют ограничений по интеграции ускорителей. Заказчики могут сочетать продукты сразу от Nvidia и AMD в одной системе, что невозможно в рамках SXM и OAM.

Эта проблема особенно обострилась с появлением адаптеров NVIDIA H100, которые в версии PCI-E предлагали значительно урезанные возможности по сравнению с аналогами SXM. У SXM видеокарт выше производительность по сравнению с PCI-E аналогами, поскольку у первых не такие строгие ограничения по TDP. Ввиду высокого TDP, SXM-версии могут работать на больших частотах, а также для охлаждения таких карты используется более продуманная система охлаждения. Кроме того, у SXM-ускорителей больше памяти, поскольку именно карты с этим стандартом оптимизируют для мировых IT-гигантов и улучшают их эффективность за счет наличия NVLink и NVSwitch.

Конкуренты Nvidia тоже не смогли предложить достойную альтернативу для пользователей PCI-E. Примером служит серия ИИ-ускорителей AMD Instinct MI325X, представляющая передовые возможности для высокопроизводительных вычислений, но доступная только в формате OAM. Это оставило рынок PCI-E практически пустым, что вызвало недовольство среди пользователей, которые не готовы отказываться от своих текущих систем ради интеграции передовых GPU. Однако, ускоритель Nvidia H200 NVL стал решением, которое призвано ликвидировать эту острую проблему, предлагая производительность уровня HGX в стандарте PCI-E.

Ускоритель ИИ AMD Instinct MI325X, доступный только OAM версии. Источник: AMD.

Отличия H200 NVL от H200 SXM и H100 NVL

Несмотря на то, что карты H200 NVL, H200 SXM и H100 имеют одну и ту же архитектуру Hooper, новые H200 NVL весьма отличаются от аналогов. Рассмотрим отличия H200 NVL от других ускорителей Nvidia на той же архитектуре по-отдельности.

Форм-фактор

Главное отличие H200 NVL от карты SXM версии заключается в поддержке PCI-E. Как было сказано выше Nvidia H200 NVL поддерживают PCI-E, поэтому они свободно интегрируются в большинство серверных систем, при этом, Nvidia не ввела никаких ограничений в связи с поддержкой этого стандарта и H200 NVL имеет схожие характеристики с SXM-версией.

Объем памяти

Объем памяти H200 NVL достигает внушительных 141 ГБ HBM3 — столько же, сколько и у SXM версии ускорителя H200. У предыдущей PCI-E версии ускорителя на архитектуре Hooper объем памяти был меньше и составлял всего 80 ГБ. За счет этого H200 NVL найдет широкое применение в сфере обучения больших языковых моделей, так как современные LLM имеют огромное количество параметров и требуют от ИИ-ускорителей наибольший объем памяти, а также это будет полезно для обработки сложных симуляций и высокопроизводительных аналитических вычислений.

Видеокарта Nvidia H100 с поддержкой PCI-E.

Пропускная способность

Пропускная способность H200 NVL также подверглась изменениям — теперь она достигает 4,8 ТБ/с, тогда как в PCI-E версии H100 имела меньшую пропускную способность, которая равнялась 3,35 ТБ/с. Теперь скорость передачи данных у H200 NVL и SXM-версии одинакова, поэтому новый ускоритель эффективно показывает себя в работе с большими объемами данных.

TDP

Еще одно отличие между H200 NVL и других решений на архитектуре Hooper — показатель TDP. H200 NVL имеет тепловыделение, равное 600 Вт, что всего на 100 Вт меньше, чем у SXM. Однако, TDP ускорителя H200 NVL все равно очень велик, поэтому для него требуется продуманная система охлаждения. На платах HGX, в которые можно устанавливать SXM-версии ускорителей, предусмотрены мощные радиаторы, однако, пользователям ускорителей H200 NVL придется повысить обороты вентилятора сервера, чтобы эффективно охлаждать эту видеокарту.

NVIDIA AI Enterprise

Интересно, что новая версия H200 NVL имеет встроенную поддержку программного комплекса NVIDIA AI Enterprise, который ускоряет обработку данных, упрощает разработку и развертывание готовых к использованию приложений для искусственного интеллекта. В это же время, для других продуктов Hooper NVIDIA AI Enterprise необходимо докупать дополнительно.

Плата Nvidia HGX, предназначенная для интеграции ИИ-ускорителя Nvidia H200 SXM. Источник: Nvidia.

Сравнение ИИ-производительности H200 NVL и аналогов

Предоставляем таблицу, где вы можете более подробно ознакомиться с производительностью ускорителей Hooper в вычислениях с различной степенью точности, что будет крайне полезно для инференса и обучения ИИ:

Параметр	H200 NVL	H200 SXM	H100 NVL
Полная точность(FP32)	835 TFLOPS	989 TFLOPS	835 TFLOPS
Половинная точность(BF16)	1671 TFLOPS	1979 TFLOPS	1671 TFLOPS
Половинная точность(FP16)	1671 TFLOPS	1979 TFLOPS	1671 TFLOPS
8-ми битный формат(FP8)	3341 TFLOPS	3958 TFLOPS	3341 TFLOPS

Новый NVlink

С релизом H200 NVL Nvidia представила обновленный мостик NVLink. Ранее технологии NVLink позволяли соединять только 2 графических процессора с поддержкой PCI-E, что ограничивало их взаимодействие в больших кластерах. Видеокарты SXM были лишены этого недостатка и в одной системе можно было связать до 8-ми ускорителей благодаря работе NVSwitch. В свою очередь, новый мостик NVLink способен объединять до 4-х GPU PCI-E с общей пропускной способностью до 900 ГБ/с. Это позволяет не только ускорить обмен данными между GPU, но и создать архитектуру, которая будет максимально эффективна для требовательных задач, таких как обучение больших языковых моделей.

Теперь 4 GPU работают как единая система, обеспечивая идеальное соотношение мощности и пропускной способности. Это решение позволяет строить высокопроизводительные серверные узлы без необходимости полного перехода на платформы SXM, сохраняя гибкость и совместимость с системами на базе PCI-E.

MGX-сервер на базе NVIDIA H200 NVL с поддержкой 4-х ускорителей. Источник: ServeTheHome.

Вывод

Новый ИИ-ускоритель H200 NVL — это настоящий прорыв в области передовых графических решений для инфраструктур для разрмаботки LLM. Сектор искусственного интеллекта уже долгое время ждал обновленные видеокарты от NVIDIA, имеющие увеличенный объем памяти VRAM на базе интерфейса PCI-E. Конечно, на рынке представлены и другие решения с большим объемом видеопамяти, однако, большинство из них не поддерживают стандарт PCI-E. Ввиду этого, Nvidia представила действительно интересное решение, которое закрывает сразу несколько потребностей рынка — большой объем памяти и поддержка интерфейса PCI-E. ServerFlow обязательно наладит поставки этих передовых видеокарт от Nvidia в ближайшее время, чтобы обеспечить лучший пользовательский опыт для наших клиентов из области разработки моделей искусственного интеллекта.

Автор:

Serverflow