Как выбрать сервер для искусственного интеллекта: основные критерии и рекомендации
Автор: ServerFlow
Статья про серверы для искусственного интеллекта
Содержание
Введение
Процессор также важен для обучения ИИ
Оптимальный объем оперативной памяти
Выбор графических ускорителей для работы с ИИ
Ускорители Tesla H100, A100 - максимальная производительность
Radeon Instinct Mi300, MI250, MI210 - альтернатива зеленым
Более доступные ускорители Tesla V100
Tesla P100. Родоначальники обучения моделей ИИ
Выбор серверной платформы для размещения видеокарт
Специализированные GPU сервера
SXM и OAM оптимизированные сервера с shared memory
Уникальные Nvidia DGX и HGX сервера
Заключение
Введение
Активное развитие генеративного ИИ в последние годы позволило существенно расширить сферу его применения в самых разных областях. Искусственный интеллект активно внедряется в автопром, медицину, IT и множество других направлениях. Но для обучения нейросетей, создания все более мощных и продвинутых ИИ необходимы постоянные тренировки на все более мощном оборудовании.
Сегодня мы расскажем о том, на что обратить внимание при выборе сервера, на котором будет происходить обучение генеративного ИИ и различных его компонентов. Это позволит упростить выбор наиболее эффективного и производительного оборудования.
Процессор также важен для обучения ИИ
Хотя основное внимание при выборе сервера для AI уделяется производительности графических ускорителей, для стабильной и быстрой работы нейросети необходим и мощный процессор. Хотя основная часть нагрузки действительно ложится на видеокарту, CPU также играет значительную роль в обучении искусственного интеллекта.
Процессор отвечает за координацию и распределение задач на уровне системы. Именно универсальные процессорные ядра осуществляют распределение потоков данных, запуском и остановкой широкого спектра дополнительных задач и модулей, синхронизацией работы всех компонентов сервера.
Также CPU производит предварительную обработку данных. Для тренировки генеративного ИИ необходимы большие объемы информации в определенном формате. Ее подготовка осуществляется именно центральным процессором, который выполняет очистку, нормализацию и ряд других операций. Таким образом существенно ускоряется процесс обучения нейросети, снижается вероятность ошибок и сбоев, повышается общая эффективность работы оборудования.
Процессоры на сокетах SP3 и LGA3647 подходящие под задачи тренировки ИИ
Центральный процессор отвечает и за обработку всех операций ввода-вывода, в том числе и обращений к дисковой подсистеме, с которой считывается информация для тренировки AI. К тому же некоторые из алгоритмов машинного обучения выполняются именно на процессоре, например, оптимизация гиперпараметров и ряд вычислений, с которыми процессорные ядра справляются лучше.
Поэтому при выборе процессора для тренировок ИИ нужно подбирать модель, которая не станет «узким горлышком» и обеспечит эффективную работу всего оборудования и ПО. Оптимальным вариантом будут модели из серии Intel Xeon или AMD EPYC. Также на рынке постепенно распространяются процессоры на архитектуре ARM, например, решения из серии NVIDIA Grace.
Ниже мы привели несколько вариантов процессоров идеально подходящих для построения сервера для обучения нейросетей:
Наименование Число ядер и потоков Частота процессора Объем L3 кеша
AMD EPYC™ 7F72 24c/48t 3.2GHz-3.7GHz 192MB
AMD EPYC™ 7413 24c/48t 2.65GHz-3.6GHz 128MB
Intel Xeon GOLD 6230 (20c/40t, 2.1GHz-3.9GHz, 125W) 20c/40t 2.1GHz-3.9GHz 27.5MB
Intel Xeon Platinum 8260 (24c/48t, 2.4GHz-3.9GHz, 165W) 24c/48t 2.4GHz-3.9GHz 35.75MB
Все вышеуказанный процессоры обладают высоким числом ядер и хорошей производительностью на ядро. Процессоры AMD EPYC могут предложить 128 линий PCI-E 4.0, а процессоры Intel Xeon Scalable 2 поколения 48 линий PCI-E 3.0.
Оптимальный объем оперативной памяти
Количество ОЗУ, необходимое для эффективного обучения ИИ зависит от множества параметров, таких как размер набора данных, размер и сложность модели, используемые фреймворки.
В целом нужный объем оперативной памяти можно разделить на несколько категорий:
Начальный уровень. Для работы небольших нейросетевых моделей будет достаточно 16-32 Гб памяти.
Средний. Для обучения производительных нейросетей, чаще всего связанных с обработкой текстовых запросов или изображений потребуется 32-64 Гб оперативной памяти на сокет.
Продвинутый. Для обработки больших наборов данных и масштабных нейросетей нужно 64 Гб памяти и более.
Модули памяти 16GB ECC REG 3200Mhz в системе на базе AMD EPYC
Если сервер планируется использовать для организации распределенной вычислительной системы с кластерной структурой потребность в ОЗУ может существенно вырасти, для таких задач работает правило «чем больше, тем лучше».
ServerFlow рекомендует начинать с оптимального объема RAM под ваши задачи, поскольку серверное оборудование легко масштабируется в рамках объемов ОЗУ. Сэкономленные средства лучше вложить в GPU или CPU.
Выбор графических ускорителей для работы с ИИ
В большинстве случаев именно от видеокарт зависит основная производительность сервера для тренировок нейросетей. Именно на них происходит обработка большей части данных, это обусловлено особенностями архитектуры графических чипов. На них размещается множество небольших ядер (Cuda-ядра или потоковые процессоры), что позволяет распараллеливать задачи на тысячи потоков, также многие модели предлагают специализированные модули, такие как тензорные ядра от Nvidia.
Как AMD, так и Nvidia предлагают графические ускорители «заточенные», на обучение AI, которые позволяют значительно повысить эффективность этого процесса.
Видеокарты Tesla P4 в серверной материнской плате Supermicro
Ускорители Tesla H100, A100 - максимальная производительность
Это самые производительные решения для нейросетей из доступных на рынке от компании Nvidia.
Модель Tesla A100 основана на архитектуре Ampere и помимо CUDA-ядер оснащается тензорными ядрами второго поколения. H100 – это новейшее на данный момент поколение графических ускорителей на архитектуре Hopper. Оно предлагает увеличенное более чем вдвое количество CUDA-ядер (в сравнении с A100) и тензорные ядра четвертого поколения, что обеспечило ускорение матричных вычислений в 6 раз.
Оба GPU комплектуются скоростной памятью с широкой шиной HBM. A100 доступны с 40 или 80 Гб видеопамяти, H100 предлагается только в версии на 80 Гб. Также они поддерживают ряд крайне полезных технологий:
NVLink. Это фирменное высокоскоростное соединение для объединения нескольких графических адаптеров в мощный вычислительный кластер.
MIG. Позволяет разделять один GPU на несколько изолированных инстансов, что позволяет использовать один ускоритель нескольким пользователям (до 7).
cuDNN. Предлагает разработчикам набор мощных инструментов для оптимизации ИИ моделей и процессов их обучения.
Видеокарта Tesla A100 80GB в тестовом стенде ServerFlow для проверки перед отправкой клиенту (вентилятор не является системой охлаждения).
Ниже мы привели сравнительную таблицу видеоадаптеров для тренировок AI “High-End” класса:
Наименование ускорителя Число CUDA ядер Число тензорных ядер Объем и тип видеопамяти Поколение тензорных ядер
NVIDIA H100 PCIe 80 GB 14592 456 80 GB HBM2e 4-е поколение
NVIDIA A100 PCIe 80 GB 6912 432 80 GB HBM2e 3-е поколение
NVIDIA A100 PCIe 40 GB 6912 432 40 GB HBM2e 3-е поколение
NVIDIA Tesla H100 и A100 – это передовые графические адаптеры, способные справится с самыми серьезными нагрузками и предлагающие поддержку множества продвинутых технологий от инженеров Nvidia. Единственный их недостаток – очень высокая стоимость.
На момент 2024 года на рынок поступили региональные версии видеокарт для обхода санкций против Китая. Они часто имеют схожую мощность и могут сэкономить бюджет в ряде сценариев:
NVIDIA H800 PCIe 80 GB - региональная версия видеокарты H100 с рядом ограничений для обхода санкций. Эта версия может оказаться дешевле международной H100, но стоит проявить осторожность и вникнуть в вопрос возможных лимитов.
NVIDIA A800 PCIe 40/80GB - также версия для Китая, создана на основе видеокарты Tesla A100. Достоверно известно, что в A800 снижена пропускная способность NVLink(с 600 ГБ/с до 400ГБ/с).
Radeon Instinct Mi300, MI250, MI210 - альтернатива зеленым
Это мощные графические ускорители от компании AMD, предназначенные для обучения ИИ, по многим параметрам они превосходят аналогичные решения от Nvidia, к основным преимуществам можно отнести:
Большой объем памяти. GPU оснащаются 128 Гб скоростной HBM3.
Энергоэффективность. Использование новейших техпроцессов и оптимизация архитектуры позволили существенно снизить энергопотребление и нагрев чипов AMD.
Универсальная архитектура. В графическом адаптере используется архитектура CDNA2, обеспечивающая выдающуюся производительности в операциях с одинарной и двойной точностью и поддержку смешанных числовых форматов.
В целом, по «сырой» вычислительной мощности карты от AMD превосходят решения от Nvidia. Но последние предлагают существенно лучшую программную поддержку, далеко не все специализированное ПО хорошо работает с решениями от AMD.
Ускорители Radeon Instinct в PCI-E и OAM версиях. Источник: AMD
Рассмотрим несколько вариантов продуктов от AMD:
Наименование ускорителя Число ядер Объем и тип видеопамяти
AMD Radeon Instinct MI300 14080 128 GB HBM3
AMD Radeon Instinct MI250 13312 128 GB HBM2e
AMD Radeon Instinct MI210 6656 64 GB HBM2e
К сожалению, в гонке ускорителей для тренировок ИИ компания AMD занимает позиции догоняющего. Карты Radeon Instinct могут похвастаться огромными объемами HBM памяти, но не имеют тензорных ядер, что делает процесс обучения моделей искусственного интеллекта не столь быстрым. AMD пытается сократить разрыв и периодически выпускает обновленные версии устройств, но лидерство NVIDIA неоспоримо.
Более доступные ускорители Tesla V100
На сегодняшний день это средне бюджетный графический процессор на архитектуре Volta, хоть и не самой новой, но до сих пор актуальной, благодаря наличию достаточно производительной архитектуры CUDA-ядер и 640 тензорных ядер. Хотя тензорные ядра относятся к первому поколению этой технологии, их производительности будет достаточно для ускорения матричных вычислений в большом спектре задач.
Хотя характеристики Tesla V100 не назвать рекордными, этот GPU предлагает отличное сочетание цены и производительности и может использоваться для тренировок практически любого генеративного AI за исключением самых требовательных и сложных моделей.
Графический процессор Tesla V100 16GB
Ниже в таблице мы привели сравнительную характеристику между видеокартами Volta:
Наименование ускорителя Число CUDA ядер Число тензорных ядер Объем и тип видеопамяти Поколение тензорных ядер
NVIDIA Tesla V100 PCIe 16 GB 5120 640 16 GB HBM2 1-е поколение
NVIDIA Tesla V100 PCIe 32 GB 5120 640 32 GB HBM2 1-е поколение
Tesla V100 может по достоинству считаться проводником в мир искусственного интеллекта. Доступная цена и наличие тензорных ядер, делают ее лучшим выбором для начинающих специалистов в области ИИ.
Tesla P100. Родоначальники обучения моделей ИИ.
В далеком 2016 году Nvidia представила свой первый ускоритель ориентированный на работу с нейросетями и их обучение. На сегодняшний день эти видеокарты отличаются самой демократичной стоимостью. Но стоит отметить, что их производительность не сопоставима с современными аналогами. Помимо P100 с HBM2 памятью был представлен графический адаптер с более емкой VRAM на базе GDDR5 - Tesla P40, в меньшей степени ориентированный на AI.
Nvidia Tesla P100 16GB - самый доступный адаптер с HBM2 памятью
Ускорители на архитектуре Pascal имели следующие характеристики:
Наименование ускорителя Число CUDA ядер Число тензорных ядер Объем и тип видеопамяти Поколение тензорных ядер
NVIDIA Tesla P100 PCIe 16 GB 3584 Отсутствуют 16 GB HBM2 Отсутствуют
NVIDIA Tesla P40 24GB 3840 Отсутствуют 24 GB GDDR5 Отсутствуют
Выбор серверной платформы для размещения видеокарт
Выбор платформы для установки GPU зависит от специфики задач, для которых предполагается использовать сервер, требований к производительности и масштабирования. При этом нужно учитывать следующие критерии:
Совместимость. Платформа должна поддерживать тип и количество GPU, которые планируется использовать для обучения ИИ.
Масштабируемость. Необходимо заранее рассчитать будущий рост проекта и выбирать платформу, которая обеспечит возможность добавления новых GPU по мере необходимости. Многие современные серверные платформы предлагают поддержку подключения 8 GPU и более.
Эффективность охлаждения. Профессиональные ускорители выделяют достаточно много тепла, поэтому платформа должна обеспечивает эффективный теплоотвод на основе воздушных или жидкостных систем охлаждения.
Энергопотребление. Производительные GPU потребляют много электроэнергии, необходимо выбирать блок питания, способный запитать все подключенные видеоадаптеры.
Процессор и ОЗУ. Эти компоненты могут стать «узким местом» всей системы, рекомендуется использовать современные многоядерные и высокочастотные ЦП в сочетании с не менее чем 64 Гб оперативной памяти.
Места для установки видеокарт в специализированное GPU шасси Supermicro
Также при выборе сервера для тренировок AI обращайте внимание на сетевые возможности, наличие высокоскоростных сетевых интерфейсов является обязательным требованием при масштабировании распределенных систем. Также они позволяют оптимизировать обмен данными между узлами вычислительного кластера.
Задачи наших клиентов мы часто реализуем в следующем серверном шасси:
Supermicro AS-2024US-TRT - 2U платформа Supermicro с поддержкой процессоров AMD EPYC Milan 7003. Платформа работает по стандарту PCI-E 4.0, что обеспечивает высокую пропускную способность GPU. Оптимизированная компоновка дает разместить три полноразмерных Nvidia Tesla и один в формате low profile. Такой сервер идеален для colocation в ДЦ ввиду своей компактности.
Supermicro AS-2024US-TRT позволяет разместить несколько двухслотовых ускорителей в компактном корпусе
Специализированные GPU сервера
Главное отличие таких серверных платформ – возможность использования большого числа видеокарт с интерфейсом PCI-E. Это обеспечивает ряд преимуществ, в число которых входят:
Гибкость и универсальность. В такой сервер можно установить любой графический процессор с интерфейсом PCI-E как от Nvidia, так и от AMD.
Простота масштабирования. Такие серверы поддерживают 6-8 видеокарт и более, а особенности интерфейса позволяют быстро добавлять новые GPU или заменять вышедшие из строя\устаревшие.
Совместимость. PCI-E является признанным всеми производителями индустриальным стандартом, что обеспечивает поддержку широкого спектра оборудования и ПО.
Экономичность. Использование PCI-E версий ускорителей позволяет оптимизировать расходы, в сравнении со специализированными решениями.
SuperServer 4028GR-TR дает возможность установить 10 адаптеров Tesla или Radeon Instinct
Единственный существенный недостаток таких серверов для обучения ИИ – ограничения по скорости передачи данных и сложность с созданием действительно масштабных вычислительных кластеров.
В рамках GPU платформы мы часто используем - Supermicro SuperServer 4029GP-TRT. Это 4U GPU шасси позволяющее установить до 8 полноразмерных видеокарт Nvidia Tesla. Процессоры Intel Xeon Gold 2 поколения обеспечивают отличную производительность в рабочих задачах, а блоки питания мощностью 2000W зарезервированные по схеме 2+2 дают стабильное электропитания для самых высоконагруженных конфигураций.
SXM и OAM оптимизированные сервера с shared memory
Это современные серверы, оснащенные специализированными интерфейсами для подключения графических ускорителей оптимизированные для проведения высокопроизводительных вычислений и тренировок AI.
SXM-модули обеспечивают высокую пропускную способность межсоединений и отличаются наличием прямого соединения между GPU и центральным процессором, что позволяет снизить задержки и повысить скорость обмена информацией.
SXM модуль Tesla H100 96GB имеет более чем на 2000 CUDA ядер и расширенный объем HBM3 памяти. Источник: NVIDIA
OAM –открытый стандарт для модулей специализированных ускорителей. Он был создан для упрощения формирования эффективных и масштабируемых систем. Благодаря гибкости конфигурации в одном сервере могут использоваться несколько OAM модулей, что позволяет радикально повысить скорость обучения ИИ.
OAM модуль AMD Instinct MI300X оборудован 192GB HBM3 памяти и 19456 вычислительными ядрами. Источник: AMD
Оба варианта поддерживают shared memory, то есть обеспечивают доступ к хранящимся в памяти данным всех подключенных GPU, что позволяет существенно увеличить скорость тренировок ИИ, в том числе сортировки и свертки в нейронных сетях.
Для создания сверх производительных систем для работы с AI, мы в ServerFlow прибегаем к построению системы на базе SuperMicro GPU SuperServer SYS-421GU-TNXR. Это уникальное шасси оборудованное четырьмя Nvidia Tesla H100 в форм-факторе SXM. Видеокарты соединены высокоскоростной шиной NVLink, что делает работу с моделями ИИ максимально комфортной.
SuperServer SYS-421GU-TNXR с возможностью установки четырех NVIDIA HGX H100. Источник: Supermicro
Уникальные Nvidia DGX и HGX сервера
Nvidia DGX сервера – это высокопроизводительные системы с уникальной архитектурой разработанные инженерами Nvidia для оптимизации глубокого обучения ИИ и решения других задач связанных с нейросетевыми вычислениями. К главным особенностям таких серверов можно отнести:
Масштабируемость. DGX серверы можно легко объединить в вычислительные кластеры для распределенных вычислений. Также они поддерживают продвинутые функции мониторинга, обеспечения безопасности и управления кластером.
Специализированная архитектура. В DGX серверах используются технологии NVLINK и NVSWITCH, которые обеспечивают объединение всех подключенных видеокарт через интерконнект с многосвязной топологией и с общей пропускной способностью до 600 Гб\с.
Так как в DGX серверы поддерживают установку только ускорителей NVIDIA, они обеспечивают полную совместимость с фирменным ПО и технологиями, например, CUDA и CuDNN, которые позволяют эффективно использовать максимум возможностей GPU для машинного обучения.
Система Nvidia DGX на базе восьми Tesla A100, процессоров AMD EPYC, сетевых карт Mellanox. Источник: NVIDIA
Также для таких серверов разработан специализированный программный пакет – DGX-Software. В него входят специализированные драйверы и библиотеки в сочетании со специальными инструментами для ускорения нейросетевых вычислений, например, TensorRT, Nvidia Docker.
Приобрести сервера Nvidia DGX практически не возможно. Nvidia ведет поставки своим крупнейшим партнерам, а те в свою очередь реализуют мощности этих вычислительных кластеров по концепции - “AI Training-as-a-Service”. Однако, приобретение.
На сегодняшний момент Nvidia создала логическое продолжение DGX линейки:
NVIDIA DGX B200 - основаны на базе процессоров NVIDIA HGX B200 и HGX B100 на архитектуре BlackWell. Поставки такого рода систем ведутся в компанию - OpenAI(разработчик ChatGPT)
NVIDIA HGX - суперкомпьютерное решение для решения задач ИИ.
Сервер NVIDIA DGX B200. Источник: NVIDIA
Заключение
Серверное оборудование играет значимую роль в любой отрасли бизнеса. Обучение и тренировка ИИ не исключение. Более того, эта отрасль буквально зародилась на базе высокопроизводительных серверов и стала активно развиваться благодаря развитию GPU. Сегодня развитие AI всецело зависит от успехов ведущих компаний чипмейкеров и компаний вендоров железа. Благодаря широкому ассортименту ускорителей и серверов практически любая организация может позволить себе приобрести сервер для работы с собственной моделью ИИ.
Чтобы сделать наилучший выбор, мы рекомендуем обратиться к нашим менеджерам. Мы создадим персональную конфигурацию под ваши задачи с учетом заданного бюджета. Сообщите менеджеру промокод “SFMAYAI” и получите скидку в 5% на сервер для нейросетей.
Как выбрать сервер для искусственного интеллекта: основные критерии и рекомендации
Активное развитие генеративного ИИ в последние годы позволило существенно расширить сферу его применения в самых разных областях. Искусственный интеллект активно внедряется в автопром, медицину, IT и множество других направлениях. Но для обучения нейросетей, создания все более мощных и продвинутых ИИ необходимы постоянные тренировки на все более мощном оборудовании.
Сегодня мы расскажем о том, на что обратить внимание при выборе сервера, на котором будет происходить обучение генеративного ИИ и различных его компонентов. Это позволит упростить выбор наиболее эффективного и производительного оборудования.
Процессор также важен для обучения ИИ
Хотя основное внимание при выборе сервера для AI уделяется производительности графических ускорителей, для стабильной и быстрой работы нейросети необходим и мощный процессор. Хотя основная часть нагрузки действительно ложится на видеокарту, CPU также играет значительную роль в обучении искусственного интеллекта.
Процессор отвечает за координацию и распределение задач на уровне системы. Именно универсальные процессорные ядра осуществляют распределение потоков данных, запуском и остановкой широкого спектра дополнительных задач и модулей, синхронизацией работы всех компонентов сервера.
Также CPU производит предварительную обработку данных. Для тренировки генеративного ИИ необходимы большие объемы информации в определенном формате. Ее подготовка осуществляется именно центральным процессором, который выполняет очистку, нормализацию и ряд других операций. Таким образом существенно ускоряется процесс обучения нейросети, снижается вероятность ошибок и сбоев, повышается общая эффективность работы оборудования.
Процессоры на сокетах SP3 и LGA3647 подходящие под задачи тренировки ИИ
Центральный процессор отвечает и за обработку всех операций ввода-вывода, в том числе и обращений к дисковой подсистеме, с которой считывается информация для тренировки AI. К тому же некоторые из алгоритмов машинного обучения выполняются именно на процессоре, например, оптимизация гиперпараметров и ряд вычислений, с которыми процессорные ядра справляются лучше.
Поэтому при выборе процессора для тренировок ИИ нужно подбирать модель, которая не станет «узким горлышком» и обеспечит эффективную работу всего оборудования и ПО. Оптимальным вариантом будут модели из серии Intel Xeon или AMD EPYC. Также на рынке постепенно распространяются процессоры на архитектуре ARM, например, решения из серии NVIDIA Grace.
Ниже мы привели несколько вариантов процессоров идеально подходящих для построения сервера для обучения нейросетей:
Все вышеуказанный процессоры обладают высоким числом ядер и хорошей производительностью на ядро. Процессоры AMD EPYC могут предложить 128 линий PCI-E 4.0, а процессоры Intel Xeon Scalable 2 поколения 48 линий PCI-E 3.0.
Оптимальный объем оперативной памяти
Количество ОЗУ, необходимое для эффективного обучения ИИ зависит от множества параметров, таких как размер набора данных, размер и сложность модели, используемые фреймворки.
В целом нужный объем оперативной памяти можно разделить на несколько категорий:
Начальный уровень. Для работы небольших нейросетевых моделей будет достаточно 16-32 Гб памяти.
Средний. Для обучения производительных нейросетей, чаще всего связанных с обработкой текстовых запросов или изображений потребуется 32-64 Гб оперативной памяти на сокет.
Продвинутый. Для обработки больших наборов данных и масштабных нейросетей нужно 64 Гб памяти и более.
Если сервер планируется использовать для организации распределенной вычислительной системы с кластерной структурой потребность в ОЗУ может существенно вырасти, для таких задач работает правило «чем больше, тем лучше».
ServerFlow рекомендует начинать с оптимального объема RAM под ваши задачи, поскольку серверное оборудование легко масштабируется в рамках объемов ОЗУ. Сэкономленные средства лучше вложить в GPU или CPU.
Выбор графических ускорителей для работы с ИИ
В большинстве случаев именно от видеокарт зависит основная производительность сервера для тренировок нейросетей. Именно на них происходит обработка большей части данных, это обусловлено особенностями архитектуры графических чипов. На них размещается множество небольших ядер (Cuda-ядра или потоковые процессоры), что позволяет распараллеливать задачи на тысячи потоков, также многие модели предлагают специализированные модули, такие как тензорные ядра от Nvidia.
Как AMD, так и Nvidia предлагают графические ускорители «заточенные», на обучение AI, которые позволяют значительно повысить эффективность этого процесса.
Видеокарты Tesla P4 в серверной материнской плате Supermicro
Ускорители Tesla H100, A100 - максимальная производительность
Это самые производительные решения для нейросетей из доступных на рынке от компании Nvidia.
Модель Tesla A100 основана на архитектуре Ampere и помимо CUDA-ядер оснащается тензорными ядрами второго поколения. H100 – это новейшее на данный момент поколение графических ускорителей на архитектуре Hopper. Оно предлагает увеличенное более чем вдвое количество CUDA-ядер (в сравнении с A100) и тензорные ядра четвертого поколения, что обеспечило ускорение матричных вычислений в 6 раз.
Оба GPU комплектуются скоростной памятью с широкой шиной HBM. A100 доступны с 40 или 80 Гб видеопамяти, H100 предлагается только в версии на 80 Гб. Также они поддерживают ряд крайне полезных технологий:
NVLink. Это фирменное высокоскоростное соединение для объединения нескольких графических адаптеров в мощный вычислительный кластер.
MIG. Позволяет разделять один GPU на несколько изолированных инстансов, что позволяет использовать один ускоритель нескольким пользователям (до 7).
cuDNN. Предлагает разработчикам набор мощных инструментов для оптимизации ИИ моделей и процессов их обучения.
Видеокарта Tesla A100 80GB в тестовом стенде ServerFlow для проверки перед отправкой клиенту (вентилятор не является системой охлаждения).
Ниже мы привели сравнительную таблицу видеоадаптеров для тренировок AI “High-End” класса:
NVIDIA Tesla H100 и A100 – это передовые графические адаптеры, способные справится с самыми серьезными нагрузками и предлагающие поддержку множества продвинутых технологий от инженеров Nvidia. Единственный их недостаток – очень высокая стоимость.
На момент 2024 года на рынок поступили региональные версии видеокарт для обхода санкций против Китая. Они часто имеют схожую мощность и могут сэкономить бюджет в ряде сценариев:
NVIDIA H800 PCIe 80 GB - региональная версия видеокарты H100 с рядом ограничений для обхода санкций. Эта версия может оказаться дешевле международной H100, но стоит проявить осторожность и вникнуть в вопрос возможных лимитов.
NVIDIA A800 PCIe 40/80GB - также версия для Китая, создана на основе видеокарты Tesla A100. Достоверно известно, что в A800 снижена пропускная способность NVLink(с 600 ГБ/с до 400ГБ/с).
Это мощные графические ускорители от компании AMD, предназначенные для обучения ИИ, по многим параметрам они превосходят аналогичные решения от Nvidia, к основным преимуществам можно отнести:
Большой объем памяти. GPU оснащаются 128 Гб скоростной HBM3.
Энергоэффективность. Использование новейших техпроцессов и оптимизация архитектуры позволили существенно снизить энергопотребление и нагрев чипов AMD.
Универсальная архитектура. В графическом адаптере используется архитектура CDNA2, обеспечивающая выдающуюся производительности в операциях с одинарной и двойной точностью и поддержку смешанных числовых форматов.
В целом, по «сырой» вычислительной мощности карты от AMD превосходят решения от Nvidia. Но последние предлагают существенно лучшую программную поддержку, далеко не все специализированное ПО хорошо работает с решениями от AMD.
Ускорители Radeon Instinct в PCI-E и OAM версиях. Источник: AMD
К сожалению, в гонке ускорителей для тренировок ИИ компания AMD занимает позиции догоняющего. Карты Radeon Instinct могут похвастаться огромными объемами HBM памяти, но не имеют тензорных ядер, что делает процесс обучения моделей искусственного интеллекта не столь быстрым. AMD пытается сократить разрыв и периодически выпускает обновленные версии устройств, но лидерство NVIDIA неоспоримо.
Более доступные ускорители Tesla V100
На сегодняшний день это средне бюджетный графический процессор на архитектуре Volta, хоть и не самой новой, но до сих пор актуальной, благодаря наличию достаточно производительной архитектуры CUDA-ядер и 640 тензорных ядер. Хотя тензорные ядра относятся к первому поколению этой технологии, их производительности будет достаточно для ускорения матричных вычислений в большом спектре задач.
Хотя характеристики Tesla V100 не назвать рекордными, этот GPU предлагает отличное сочетание цены и производительности и может использоваться для тренировок практически любого генеративного AI за исключением самых требовательных и сложных моделей.
Tesla V100 может по достоинству считаться проводником в мир искусственного интеллекта. Доступная цена и наличие тензорных ядер, делают ее лучшим выбором для начинающих специалистов в области ИИ.
Tesla P100. Родоначальники обучения моделей ИИ.
В далеком 2016 году Nvidia представила свой первый ускоритель ориентированный на работу с нейросетями и их обучение. На сегодняшний день эти видеокарты отличаются самой демократичной стоимостью. Но стоит отметить, что их производительность не сопоставима с современными аналогами. Помимо P100 с HBM2 памятью был представлен графический адаптер с более емкой VRAM на базе GDDR5 - Tesla P40, в меньшей степени ориентированный на AI.
Nvidia Tesla P100 16GB - самый доступный адаптер с HBM2 памятью
Ускорители на архитектуре Pascal имели следующие характеристики:
Выбор серверной платформы для размещения видеокарт
Выбор платформы для установки GPU зависит от специфики задач, для которых предполагается использовать сервер, требований к производительности и масштабирования. При этом нужно учитывать следующие критерии:
Совместимость. Платформа должна поддерживать тип и количество GPU, которые планируется использовать для обучения ИИ.
Масштабируемость. Необходимо заранее рассчитать будущий рост проекта и выбирать платформу, которая обеспечит возможность добавления новых GPU по мере необходимости. Многие современные серверные платформы предлагают поддержку подключения 8 GPU и более.
Эффективность охлаждения. Профессиональные ускорители выделяют достаточно много тепла, поэтому платформа должна обеспечивает эффективный теплоотвод на основе воздушных или жидкостных систем охлаждения.
Энергопотребление. Производительные GPU потребляют много электроэнергии, необходимо выбирать блок питания, способный запитать все подключенные видеоадаптеры.
Процессор и ОЗУ. Эти компоненты могут стать «узким местом» всей системы, рекомендуется использовать современные многоядерные и высокочастотные ЦП в сочетании с не менее чем 64 Гб оперативной памяти.
Места для установки видеокарт в специализированное GPU шасси Supermicro
Также при выборе сервера для тренировок AI обращайте внимание на сетевые возможности, наличие высокоскоростных сетевых интерфейсов является обязательным требованием при масштабировании распределенных систем. Также они позволяют оптимизировать обмен данными между узлами вычислительного кластера.
Задачи наших клиентов мы часто реализуем в следующем серверном шасси:
Supermicro AS-2024US-TRT - 2U платформа Supermicro с поддержкой процессоров AMD EPYC Milan 7003. Платформа работает по стандарту PCI-E 4.0, что обеспечивает высокую пропускную способность GPU. Оптимизированная компоновка дает разместить три полноразмерных Nvidia Tesla и один в формате low profile. Такой сервер идеален для colocation в ДЦ ввиду своей компактности.
Supermicro AS-2024US-TRT позволяет разместить несколько двухслотовых ускорителей в компактном корпусе
Специализированные GPU сервера
Главное отличие таких серверных платформ – возможность использования большого числа видеокарт с интерфейсом PCI-E. Это обеспечивает ряд преимуществ, в число которых входят:
Гибкость и универсальность. В такой сервер можно установить любой графический процессор с интерфейсом PCI-E как от Nvidia, так и от AMD.
Простота масштабирования. Такие серверы поддерживают 6-8 видеокарт и более, а особенности интерфейса позволяют быстро добавлять новые GPU или заменять вышедшие из строя\устаревшие.
Совместимость. PCI-E является признанным всеми производителями индустриальным стандартом, что обеспечивает поддержку широкого спектра оборудования и ПО.
Экономичность. Использование PCI-E версий ускорителей позволяет оптимизировать расходы, в сравнении со специализированными решениями.
SuperServer 4028GR-TR дает возможность установить 10 адаптеров Tesla или Radeon Instinct
Единственный существенный недостаток таких серверов для обучения ИИ – ограничения по скорости передачи данных и сложность с созданием действительно масштабных вычислительных кластеров.
В рамках GPU платформы мы часто используем - Supermicro SuperServer 4029GP-TRT. Это 4U GPU шасси позволяющее установить до 8 полноразмерных видеокарт Nvidia Tesla. Процессоры Intel Xeon Gold 2 поколения обеспечивают отличную производительность в рабочих задачах, а блоки питания мощностью 2000W зарезервированные по схеме 2+2 дают стабильное электропитания для самых высоконагруженных конфигураций.
SXM и OAM оптимизированные сервера с shared memory
Это современные серверы, оснащенные специализированными интерфейсами для подключения графических ускорителей оптимизированные для проведения высокопроизводительных вычислений и тренировок AI.
SXM-модули обеспечивают высокую пропускную способность межсоединений и отличаются наличием прямого соединения между GPU и центральным процессором, что позволяет снизить задержки и повысить скорость обмена информацией.
OAM –открытый стандарт для модулей специализированных ускорителей. Он был создан для упрощения формирования эффективных и масштабируемых систем. Благодаря гибкости конфигурации в одном сервере могут использоваться несколько OAM модулей, что позволяет радикально повысить скорость обучения ИИ.
Оба варианта поддерживают shared memory, то есть обеспечивают доступ к хранящимся в памяти данным всех подключенных GPU, что позволяет существенно увеличить скорость тренировок ИИ, в том числе сортировки и свертки в нейронных сетях.
Для создания сверх производительных систем для работы с AI, мы в ServerFlow прибегаем к построению системы на базе SuperMicro GPU SuperServer SYS-421GU-TNXR. Это уникальное шасси оборудованное четырьмя Nvidia Tesla H100 в форм-факторе SXM. Видеокарты соединены высокоскоростной шиной NVLink, что делает работу с моделями ИИ максимально комфортной.
SuperServer SYS-421GU-TNXR с возможностью установки четырех NVIDIA HGX H100. Источник: Supermicro
Уникальные Nvidia DGX и HGX сервера
Nvidia DGX сервера – это высокопроизводительные системы с уникальной архитектурой разработанные инженерами Nvidia для оптимизации глубокого обучения ИИ и решения других задач связанных с нейросетевыми вычислениями. К главным особенностям таких серверов можно отнести:
Масштабируемость. DGX серверы можно легко объединить в вычислительные кластеры для распределенных вычислений. Также они поддерживают продвинутые функции мониторинга, обеспечения безопасности и управления кластером.
Специализированная архитектура. В DGX серверах используются технологии NVLINK и NVSWITCH, которые обеспечивают объединение всех подключенных видеокарт через интерконнект с многосвязной топологией и с общей пропускной способностью до 600 Гб\с.
Так как в DGX серверы поддерживают установку только ускорителей NVIDIA, они обеспечивают полную совместимость с фирменным ПО и технологиями, например, CUDA и CuDNN, которые позволяют эффективно использовать максимум возможностей GPU для машинного обучения.
Система Nvidia DGX на базе восьми Tesla A100, процессоров AMD EPYC, сетевых карт Mellanox. Источник: NVIDIA
Также для таких серверов разработан специализированный программный пакет – DGX-Software. В него входят специализированные драйверы и библиотеки в сочетании со специальными инструментами для ускорения нейросетевых вычислений, например, TensorRT, Nvidia Docker.
Приобрести сервера Nvidia DGX практически не возможно. Nvidia ведет поставки своим крупнейшим партнерам, а те в свою очередь реализуют мощности этих вычислительных кластеров по концепции - “AI Training-as-a-Service”. Однако, приобретение.
На сегодняшний момент Nvidia создала логическое продолжение DGX линейки:
NVIDIA DGX B200 - основаны на базе процессоров NVIDIA HGX B200 и HGX B100 на архитектуре BlackWell. Поставки такого рода систем ведутся в компанию - OpenAI(разработчик ChatGPT)
NVIDIA HGX - суперкомпьютерное решение для решения задач ИИ.
Серверное оборудование играет значимую роль в любой отрасли бизнеса. Обучение и тренировка ИИ не исключение. Более того, эта отрасль буквально зародилась на базе высокопроизводительных серверов и стала активно развиваться благодаря развитию GPU. Сегодня развитие AI всецело зависит от успехов ведущих компаний чипмейкеров и компаний вендоров железа. Благодаря широкому ассортименту ускорителей и серверов практически любая организация может позволить себе приобрести сервер для работы с собственной моделью ИИ.
Чтобы сделать наилучший выбор, мы рекомендуем обратиться к нашим менеджерам. Мы создадим персональную конфигурацию под ваши задачи с учетом заданного бюджета. Сообщите менеджеру промокод “SFMAYAI” и получите скидку в 5% на сервер для нейросетей.
09.12 2024
st
Статьи
06.12 2024
Трансформеры — новое слово в развитии искусственного интеллекта
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.