Кастомный сервер для обучения нейросетей

03.07.2024

~ 19 мин

3339

Простой

Статьи

Сегодня наши клиенты все чаще обращаются к нам с целью сборки недорогих систем на для работы с нейросетями. Для реализации такого рода запросов мы разработали “авторские сборки” с наилучшим соотношением цена/качество. В основе таких систем лежат серверные материнские платы и “майнинг риги”

Содержание:

Что из себя представляет такая система

Материнская плата под GPU
Процессоры для работы с ИИ
ОЗУ
Охлаждение
Накопители
Видеокарты для искусственного интеллекта
Корпус
Переходники и адаптеры
Питание платформы
Дополнительные расходы

Итоговая система
Недостатки способа сборки
Какую систему выбрать. Кастомную или готовую от производителя
Вывод

Что из себя представляет такая система

Чтобы максимально повысить производительность системы, мы не используем потребительские корпуса, а переходим в концепцию ригов. Основным преимуществом ригов является высокая масштабируемость в области GPU с минимальными накладными расходами.

Материнская плата под GPU:

Для работы такого рода устройства рекомендуется к установке материнская плата с обилием PCI-E 4.0 линий и гнездом для установки современных и производительных CPU.

Supermicro H12SSL-i

Серверная материнская плата Supermicro H12SSL-i с поддержкой PCI-E 4.0 и обилием PCI-E слотов

Процессоры для работы с ИИ:

Для стабильной работы ИИ требуется выдержать баланс между числом ядер и производительностью этих ядер. Поэтому выбор будет падать на оптимальные модели AMD EPYC 2-3 поколения:

Процессоры AMD EPYC в ассортименте. Процессоры имеют оптимальное число вычислительных потоков и высокие частоты, что обеспечит беспрепятственную работу ИИ

ОЗУ:

Для обучения большинства нейросетей достаточно 64GB RAM. Поэтому мы будем использовать:

8 шт. 8GB DDR4 ECC REG SkHynix 3200Mhz 1Rx8

Такой набор ОЗУ обеспечит максимальную пропускную способность контроллера памяти CPU, что наилучшим образом скажется на производительности обучения ИИ.

ОЗУ с высокой тактовой частотой - ключ к максимальному быстродействию системы. В своих сборках мы используем 8 модулей RAM, чтобы задействовать все каналы памяти

Охлаждение:

Поскольку в ригах нет ограничения по высоте СО, мы установим тихую 4U систему охлаждения с запасом по TDP

COOLSERVER SNK-P0064AP4 (4U, Active, LGA4094 (Socket SP3), 280W)

Производительная система охлаждения гарантирует беспрепятственную работу сервера 24/7 в любых сценариях использования

Накопители:

В качестве постоянного хранилища мы будем использовать U.2 накопители на базе PCI-E 4.0. Рекомендуем приобретать сразу пару накопителей для создания RAID 1, чтобы обеспечить сохранность данных.

2 шт. SSD Samsung PM1733 1.92 TB (MZWLJ1T9HBJR-00007)

U.3 или U.2 накопители на базе PCI-E обладают максимальными показателями IOPS, а также внушительным ресурсом перезаписи

Видеокарты для искусственного интеллекта:

Ключевым компонентом для работы с искусственным интеллектом является GPU. Для наилучшего опыта обучения нейросетей рекомендуется приобретать ускорители последнего поколения RTX с максимальным объемом видеопамяти и мощным графическим процессором:

Видеокарты RTX

Серверная видеокарта NVIDIA RTX 4090 24GB

Новый

Серверная видеокарта NVIDIA RTX 4090 24GB

Серверная видеокарта

281 000 руб.

Цена включает НДС 5%

В корзину

Под заказ

Сравнить

Гарантия 1 год с заменой компонентов

Новый

Серверная видеокарта NVIDIA RTX 4090 Turbo Gigabyte 24GB

Серверная видеокарта

421 200 руб.

Цена включает НДС 5%

В корзину

Под заказ

Сравнить

Гарантия 1 год с заменой компонентов

Новый

Серверная видеокарта RTX 4090 Turbo 24GB

Серверная видеокарта

450 400 руб.

Цена включает НДС 5%

В корзину

Под заказ

Сравнить

Гарантия 1 год с заменой компонентов

В случае наличия дополнительного бюджета мы можем рекомендовать к приобретению серию RTX(Quadro), которая построена на базе топовых чипов, а также оборудована двойным объемом видеопамяти:

Видеокарты RTX Quadro

Видеокарта NVIDIA RTX A5000 24GB GDDR6 [900-5G132-2200-000]

Новый

Видеокарта NVIDIA RTX A5000 24GB GDDR6 [900-5G132-2200-000]

Серверная видеокарта с поддержкой NVLink

197 300 руб.

Цена включает НДС 5%

В корзину

Под заказ

Сравнить

Гарантия 1 год с заменой компонентов

Новый

Видеокарта NVIDIA RTX A6000 48GB GDDR6 [900-5G133-2200-000]

Для графических приложений, 48GB GDDR6, 4x DisplayPort 1.4a

713 200 руб.

Цена включает НДС 5%

В корзину

Под заказ

Сравнить

Гарантия 1 год с заменой компонентов

Новый

Видеокарта NVIDIA RTX 6000 Ada 48GB GDDR6 [900-5G133-2250-000]

Для графических приложений, 48GB GDDR6, 4x mini-DisplayPort 1.4a

995 500 руб.

Цена включает НДС 5%

В корзину

Под заказ

Сравнить

Гарантия 1 год с заменой компонентов

В случае если вам требуется достигнуть максимального объема VRAM в рамках минимального бюджета вы можете использовать ускорители Tesla. За вменяемый бюджет они дают необходимый объем видеопамяти, что может значительно ускорить обучение моделей ИИ:

Видеокарты Tesla

Видеокарта NVIDIA Tesla P100 16GB HBM2 [900-2H400-0010-000]

Б/У

Видеокарта NVIDIA Tesla P100 16GB HBM2 [900-2H400-0010-000]

Для нейросетей и вычислений - Nvidia Tesla, 16GB HBM2, выдеовыходы отсутствуют

41 900 руб.

Цена включает НДС 5%

В корзину

Есть в наличии

Сравнить

Гарантия 1 год с заменой компонентов

Видеокарта NVIDIA Tesla P40 24GB GDDR5X [900-2G610-0000-000]

Б/У

Видеокарта NVIDIA Tesla P40 24GB GDDR5X [900-2G610-0000-000]

Для вычислений - Nvidia Tesla, 24GB GDDR5X, выдеовыходы отсутствуют

44 000 руб.

Цена включает НДС 5%

В корзину

Есть в наличии

Сравнить

Гарантия 1 год с заменой компонентов

Видеокарта NVIDIA Tesla V100 32GB HBM2 [900-2G500-0010-000]

Новый

Видеокарта NVIDIA Tesla V100 32GB HBM2 [900-2G500-0010-000]

Видеокарта для серверов

208 700 руб.

Цена включает НДС 5%

В корзину

Есть в наличии

Сравнить

Гарантия 1 год с заменой компонентов

Видеокарта NVIDIA A100 OEM 40GB HBM2 [900-21001-0000-000]

Новый

Видеокарта NVIDIA A100 OEM 40GB HBM2 [900-21001-0000-000]

Для вычислений - Nvidia Tesla, 40GB HBM2

747 900 руб.

Цена включает НДС 5%

В корзину

Есть в наличии

Сравнить

Гарантия 1 год с заменой компонентов

P.S. В этой статье не будут рассмотрены дорогостоящие ускорители Tesla на современных архитектурах. Мы уже рассказывали про них в другой статье про выбор сервера для нейросетей.

Tesla V100 может быть оснащена 32GB или 16GB сверхскоростной HBM2 памяти. Ускоритель имеет на борту тензорные ядра, что кратно ускоряет процесс обучения ИИ

Корпус

Чтобы обеспечить работы нескольких ускорителей, требуется выбрать каркас спроектированный под такое число GPU. Рекомендуем модели на 8 GPU с компоновкой в 1 этаж со свободным доступом к PCI-E разъему у видеокарт.

Пример майнинг корпуса с уже предустановленными вентиляторами для обдува видеокарт

Переходники и адаптеры:

Для обеспечения корректной работы системы потребуются следующие компоненты:

7 шт. Гибкий райзер PCI-E 4.0 60см.
2 шт. PCI-E X8 to PCI-E X16 адаптер
Синхронизатор блоков питания
Кабель SFF8654-8i to 2x U2(SFF8639) 1м

Рекомендуем приобретать гибкие райзеры такого типа. Они меньше подвержены риску повреждения вследствии изгиба

Питание платформы:

Для обеспечения питанием столь нагруженной системы нам предстоит произвести подсчет мощностей. Подсчет будем производить грубо в большую сторону:

Материнская плата, ОЗУ ~ 150W
Процессор ~ 240W
Накопители ~ 30W
Видеокарты ~ 450W * 7 = 3150W

Итого общее энергопотребление системы в пике составит 3570W. Таким образом для обеспечения энергией, мы рекомендуем использовать два источника по 2000W.

2 шт. Блок питания GreatWall Black Dragon 2000W (80Plus Gold, модульный, нативный 12VHPWR(для новых видеокарт))

Надежный блок питания с сертификатом 80Plus Gold лучший выбор для высоконагруженных систем

Дополнительные расходы

Несмотря на преимущества установки видеокарт в риг, нередко ускорители ввиду своего крайне высокого TDP перегреваются. Чтобы обеспечить вентиляцию мы рекомендуем установить мощные серверные вентиляторы. Такая практика позволит выдувать горячий воздух и дать картам “дышать”.

Итоговая система

После сборки всех компонентов в единый вычислительный комплекс мы имеем отзывчивую систему, где практически все GPU работают на 100% относительно собственных возможностей.

Наименование	Режим работы PCI-E
GPU1	16 линий 4.0
GPU2	16 линий 4.0
GPU3	16 линий 4.0
GPU4	16 линий 4.0
GPU5	8 линий 4.0
GPU6	16 линий 4.0
GPU7	8 линий 4.0

Работа GPU5 и GPU6 в режиме X8 в малой степени скажется на их производительности, поскольку PCI-E 4.0 обладает достаточной пропускной способностью для интенсивной работы GPU в режиме X8.

В зависимости от ваших задач вы можете установить различные OS: Windows Server 2022, Ubuntu Server, Debian, CentOS. Где в последствии, сможете развернуть ваше приложение для работы с AI.

Построенная система обладает достаточной гибкостью и в рамках потребностей может быть модифицирована следующими компонентами:

Сетевой адаптер Mellanox или Intel для работы с высокоскоростным Ethernet соедиенением или Infiniband кластериризированием.
RAID контроллер для создания аппаратного RAID на SAS HDD, чтобы обеспечить дисковый пул большой емкости для хранения данных.

Установка 100 гигабитного сетевого адаптера Mellanox с поддержкой Infiniband даст возможность создать кластер из такого рода систем для дальнейшего масштабирования

Недостатки способа сборки:

Из недостатков такого способа сборки можно отметить:

Низкая надежность гибких райзеров.
Трудность транспортировки системы
Невозможность монтажа таких систем в стойку

Но как правило все эти недостатки нивелируются, поскольку построение систем в специализированных серверных корпусах вносит коррективы, которые не дают разместить столь высокое число GPU или кратно увеличивают бюджет сборки за счет дорогостоящего серверного шасси.

Какую систему выбрать. Кастомную или готовую от производителя

Ответ на этот вопрос специалисты ServerFlow видят следующим образом.
Если ваша компания не обладает существенными финансами, и вы только начинаете работать с ИИ - приобретайте кастомную систему. Она сохранит ваши средства и станет отправной точной в сферу ИИ.

Если же это не первое знакомство с искусственным интеллектом и ваша компания успешно монетизирует свои труды мы рекомендуем приобретать уже готовые решения от Supermicro, DELL, HPE, H3C. Поскольку за надбавленную стоимость такие системы дают возможность легко масштабировать число систем и без проблем сдавать их на колокейшн в ведущие ДЦ.

Специализированная платформа для установки до 10 GPU Nvidia Tesla

В наличии имеются специализированные платформы для установки до 10 GPU Nvidia Tesla. Такие системы без проблем монтируются в стойку и имеют ряд преимуществ перед их кастомными аналогами

Вывод

В условиях кратно растущего рынка AI технологий, все больше компаний нуждаются в развитии собственных проектов на базе искусственного интеллекта для решения бизнес задач. Тема сборки сервера для ИИ является оправданной, поскольку именно такое решение дает возможность для экспериментов разработчику. Обучайте ваши модели быстро и эффективно. Оптимизируйте обучение под архитектуру системы, а также видоизменяйте архитектуру под нужны ПО. Физический сервер решает задачи, которые невозможно решить на базе арендованного выделенного сервера у поставщика IT услуг. Специалисты ServerFlow готовы ответить на любые вопросы в тематике сборке серверов для обучения нейросетей, просто задайте вопрос в онлайн чате на сайте или в Telegram @serverflow

Автор:

Serverflow

Кастомный сервер для обучения нейросетей

Что из себя представляет такая система

Материнская плата под GPU:

Процессоры для работы с ИИ:

ОЗУ:

Охлаждение:

Накопители:

Видеокарты для искусственного интеллекта:

Видеокарты RTX

Видеокарты RTX Quadro

Видеокарты Tesla

Корпус

Переходники и адаптеры:

Питание платформы:

Дополнительные расходы

Итоговая система

Недостатки способа сборки:

Какую систему выбрать. Кастомную или готовую от производителя

Вывод

Комментарии 0