В статье рассказывается о том, как создать кастомный сервер для обучения нейросетей и какие преимущества это даёт
Сегодня наши клиенты все чаще обращаются к нам с целью сборки недорогих систем на для работы с нейросетями. Для реализации такого рода запросов мы разработали “авторские сборки” с наилучшим соотношением цена/качество. В основе таких систем лежат серверные материнские платы и “майнинг риги”
Содержание:
Что из себя представляет такая система
Материнская плата под GPU
Процессоры для работы с ИИ
ОЗУ
Охлаждение
Накопители
Видеокарты для искусственного интеллекта
Корпус
Переходники и адаптеры
Питание платформы
Дополнительные расходы
Итоговая система
Недостатки способа сборки
Какую систему выбрать. Кастомную или готовую от производителя
Вывод
Что из себя представляет такая система
Чтобы максимально повысить производительность системы, мы не используем потребительские корпуса, а переходим в концепцию ригов. Основным преимуществом ригов является высокая масштабируемость в области GPU с минимальными накладными расходами.
Материнская плата под GPU:
Для работы такого рода устройства рекомендуется к установке материнская плата с обилием PCI-E 4.0 линий и гнездом для установки современных и производительных CPU.
Supermicro H12SSL-i
Серверная материнская плата Supermicro H12SSL-i с поддержкой PCI-E 4.0 и обилием PCI-E слотов
Процессоры для работы с ИИ:
Для стабильной работы ИИ требуется выдержать баланс между числом ядер и производительностью этих ядер. Поэтому выбор будет падать на оптимальные модели AMD EPYC 2-3 поколения:
AMD EPYC™ 7513 (32/64, 2.6GHz-3.6GHz, 200W, 128MB L3)
AMD EPYC™ 7413 (24/48, 2.65GHz-3.6GHz, 180W, 128MB L3)
AMD EPYC™ 7542 (32/64, 2.9GHz-3.4GHz, 225W, 128MB L3)
Процессоры AMD EPYC в ассортименте. Процессоры имеют оптимальное число вычислительных потоков и высокие частоты, что обеспечит беспрепятственную работу ИИ
ОЗУ:
Для обучения большинства нейросетей достаточно 64GB RAM. Поэтому мы будем использовать:
8 шт. 8GB DDR4 ECC REG SkHynix 3200Mhz 1Rx8
Такой набор ОЗУ обеспечит максимальную пропускную способность контроллера памяти CPU, что наилучшим образом скажется на производительности обучения ИИ.
ОЗУ с высокой тактовой частотой - ключ к максимальному быстродействию системы. В своих сборках мы используем 8 модулей RAM, чтобы задействовать все каналы памяти
Охлаждение:
Поскольку в ригах нет ограничения по высоте СО, мы установим тихую 4U систему охлаждения с запасом по TDP
COOLSERVER SNK-P0064AP4 (4U, Active, LGA4094 (Socket SP3), 280W)
Производительная система охлаждения гарантирует беспрепятственную работу сервера 24/7 в любых сценариях использования
Накопители:
В качестве постоянного хранилища мы будем использовать U.2 накопители на базе PCI-E 4.0. Рекомендуем приобретать сразу пару накопителей для создания RAID 1, чтобы обеспечить сохранность данных.
2 шт. SSD Samsung PM1733 1.92 TB (MZWLJ1T9HBJR-00007)
U.3 или U.2 накопители на базе PCI-E обладают максимальными показателями IOPS, а также внушительным ресурсом перезаписи
Видеокарты для искусственного интеллекта:
Ключевым компонентом для работы с искусственным интеллектом является GPU. Для наилучшего опыта обучения нейросетей рекомендуется приобретать ускорители последнего поколения RTX с максимальным объемом видеопамяти и мощным графическим процессором:
#PRODUCTS_1#
В случае наличия дополнительного бюджета мы можем рекомендовать к приобретению серию RTX(Quadro), которая построена на базе топовых чипов, а также оборудована двойным объемом видеопамяти:
#PRODUCTS_2#
В случае если вам требуется достигнуть максимального объема VRAM в рамках минимального бюджета вы можете использовать ускорители Tesla. За вменяемый бюджет они дают необходимый объем видеопамяти, что может значительно ускорить обучение моделей ИИ:
#PRODUCTS_3#
P.S. В этой статье не будут рассмотрены дорогостоящие ускорители Tesla на современных архитектурах. Мы уже рассказывали про них в другой статье про выбор сервера для нейросетей.
Tesla V100 может быть оснащена 32GB или 16GB сверхскоростной HBM2 памяти. Ускоритель имеет на борту тензорные ядра, что кратно ускоряет процесс обучения ИИ
Корпус
Чтобы обеспечить работы нескольких ускорителей, требуется выбрать каркас спроектированный под такое число GPU. Рекомендуем модели на 8 GPU с компоновкой в 1 этаж со свободным доступом к PCI-E разъему у видеокарт.
Пример майнинг корпуса с уже предустановленными вентиляторами для обдува видеокарт
Переходники и адаптеры:
Для обеспечения корректной работы системы потребуются следующие компоненты:
7 шт. Гибкий райзер PCI-E 4.0 60см.
2 шт. PCI-E X8 to PCI-E X16 адаптер
Синхронизатор блоков питания
Кабель SFF8654-8i to 2x U2(SFF8639) 1м
Рекомендуем приобретать гибкие райзеры такого типа. Они меньше подвержены риску повреждения вследствии изгиба
Питание платформы:
Для обеспечения питанием столь нагруженной системы нам предстоит произвести подсчет мощностей. Подсчет будем производить грубо в большую сторону:
Материнская плата, ОЗУ ~ 150W
Процессор ~ 240W
Накопители ~ 30W
Видеокарты ~ 450W * 7 = 3150W
Итого общее энергопотребление системы в пике составит 3570W. Таким образом для обеспечения энергией, мы рекомендуем использовать два источника по 2000W.
2 шт. Блок питания GreatWall Black Dragon 2000W (80Plus Gold, модульный, нативный 12VHPWR(для новых видеокарт))
Надежный блок питания с сертификатом 80Plus Gold лучший выбор для высоконагруженных систем
Дополнительные расходы
Несмотря на преимущества установки видеокарт в риг, нередко ускорители ввиду своего крайне высокого TDP перегреваются. Чтобы обеспечить вентиляцию мы рекомендуем установить мощные серверные вентиляторы. Такая практика позволит выдувать горячий воздух и дать картам “дышать”.
Итоговая система
После сборки всех компонентов в единый вычислительный комплекс мы имеем отзывчивую систему, где практически все GPU работают на 100% относительно собственных возможностей.
Наименование Режим работы PCI-E
GPU1 16 линий 4.0
GPU2 16 линий 4.0
GPU3 16 линий 4.0
GPU4 16 линий 4.0
GPU5 8 линий 4.0
GPU6 16 линий 4.0
GPU7 8 линий 4.0
Работа GPU5 и GPU6 в режиме X8 в малой степени скажется на их производительности, поскольку PCI-E 4.0 обладает достаточной пропускной способностью для интенсивной работы GPU в режиме X8.
В зависимости от ваших задач вы можете установить различные OS: Windows Server 2022, Ubuntu Server, Debian, CentOS. Где в последствии, сможете развернуть ваше приложение для работы с AI.
Построенная система обладает достаточной гибкостью и в рамках потребностей может быть модифицирована следующими компонентами:
Сетевой адаптер Mellanox или Intel для работы с высокоскоростным Ethernet соедиенением или Infiniband кластериризированием.
RAID контроллер для создания аппаратного RAID на SAS HDD, чтобы обеспечить дисковый пул большой емкости для хранения данных.
Установка 100 гигабитного сетевого адаптера Mellanox с поддержкой Infiniband даст возможность создать кластер из такого рода систем для дальнейшего масштабирования
Недостатки способа сборки:
Из недостатков такого способа сборки можно отметить:
Низкая надежность гибких райзеров.
Трудность транспортировки системы
Невозможность монтажа таких систем в стойку
Но как правило все эти недостатки нивелируются, поскольку построение систем в специализированных серверных корпусах вносит коррективы, которые не дают разместить столь высокое число GPU или кратно увеличивают бюджет сборки за счет дорогостоящего серверного шасси.
Какую систему выбрать. Кастомную или готовую от производителя
Ответ на этот вопрос специалисты ServerFlow видят следующим образом.
Если ваша компания не обладает существенными финансами, и вы только начинаете работать с ИИ - приобретайте кастомную систему. Она сохранит ваши средства и станет отправной точной в сферу ИИ.
Если же это не первое знакомство с искусственным интеллектом и ваша компания успешно монетизирует свои труды мы рекомендуем приобретать уже готовые решения от Supermicro, DELL, HPE, H3C. Поскольку за надбавленную стоимость такие системы дают возможность легко масштабировать число систем и без проблем сдавать их на колокейшн в ведущие ДЦ.
В наличии имеются специализированные платформы для установки до 10 GPU Nvidia Tesla. Такие системы без проблем монтируются в стойку и имеют ряд преимуществ перед их кастомными аналогами
Вывод
В условиях кратно растущего рынка AI технологий, все больше компаний нуждаются в развитии собственных проектов на базе искусственного интеллекта для решения бизнес задач. Тема сборки сервера для ИИ является оправданной, поскольку именно такое решение дает возможность для экспериментов разработчику. Обучайте ваши модели быстро и эффективно. Оптимизируйте обучение под архитектуру системы, а также видоизменяйте архитектуру под нужны ПО. Физический сервер решает задачи, которые невозможно решить на базе арендованного выделенного сервера у поставщика IT услуг. Специалисты ServerFlow готовы ответить на любые вопросы в тематике сборке серверов для обучения нейросетей, просто задайте вопрос в онлайн чате на сайте или в Telegram @serverflow
Кастомный сервер для обучения нейросетей
03.07.2024, в 11:52
Сегодня наши клиенты все чаще обращаются к нам с целью сборки недорогих систем на для работы с нейросетями. Для реализации такого рода запросов мы разработали “авторские сборки” с наилучшим соотношением цена/качество. В основе таких систем лежат серверные материнские платы и “майнинг риги”
Чтобы максимально повысить производительность системы, мы не используем потребительские корпуса, а переходим в концепцию ригов. Основным преимуществом ригов является высокая масштабируемость в области GPU с минимальными накладными расходами.
Материнская плата под GPU:
Для работы такого рода устройства рекомендуется к установке материнская плата с обилием PCI-E 4.0 линий и гнездом для установки современных и производительных CPU.
Серверная материнская плата Supermicro H12SSL-i с поддержкой PCI-E 4.0 и обилием PCI-E слотов
Процессоры для работы с ИИ:
Для стабильной работы ИИ требуется выдержать баланс между числом ядер и производительностью этих ядер. Поэтому выбор будет падать на оптимальные модели AMD EPYC 2-3 поколения:
Процессоры AMD EPYC в ассортименте. Процессоры имеют оптимальное число вычислительных потоков и высокие частоты, что обеспечит беспрепятственную работу ИИ
ОЗУ:
Для обучения большинства нейросетей достаточно 64GB RAM. Поэтому мы будем использовать:
Такой набор ОЗУ обеспечит максимальную пропускную способность контроллера памяти CPU, что наилучшим образом скажется на производительности обучения ИИ.
ОЗУ с высокой тактовой частотой - ключ к максимальному быстродействию системы. В своих сборках мы используем 8 модулей RAM, чтобы задействовать все каналы памяти
Охлаждение:
Поскольку в ригах нет ограничения по высоте СО, мы установим тихую 4U систему охлаждения с запасом по TDP
Производительная система охлаждения гарантирует беспрепятственную работу сервера 24/7 в любых сценариях использования
Накопители:
В качестве постоянного хранилища мы будем использовать U.2 накопители на базе PCI-E 4.0. Рекомендуем приобретать сразу пару накопителей для создания RAID 1, чтобы обеспечить сохранность данных.
U.3 или U.2 накопители на базе PCI-E обладают максимальными показателями IOPS, а также внушительным ресурсом перезаписи
Видеокарты для искусственного интеллекта:
Ключевым компонентом для работы с искусственным интеллектом является GPU. Для наилучшего опыта обучения нейросетей рекомендуется приобретать ускорители последнего поколения RTX с максимальным объемом видеопамяти и мощным графическим процессором:
Видеокарты RTX
Под заказ
Точную стоимость и срок поставки позиции рассчитает менеджер после оформления заказа
В случае наличия дополнительного бюджета мы можем рекомендовать к приобретению серию RTX(Quadro), которая построена на базе топовых чипов, а также оборудована двойным объемом видеопамяти:
В случае если вам требуется достигнуть максимального объема VRAM в рамках минимального бюджета вы можете использовать ускорители Tesla. За вменяемый бюджет они дают необходимый объем видеопамяти, что может значительно ускорить обучение моделей ИИ:
Tesla V100 может быть оснащена 32GB или 16GB сверхскоростной HBM2 памяти. Ускоритель имеет на борту тензорные ядра, что кратно ускоряет процесс обучения ИИ
Корпус
Чтобы обеспечить работы нескольких ускорителей, требуется выбрать каркас спроектированный под такое число GPU. Рекомендуем модели на 8 GPU с компоновкой в 1 этаж со свободным доступом к PCI-E разъему у видеокарт.
Пример майнинг корпуса с уже предустановленными вентиляторами для обдува видеокарт
Переходники и адаптеры:
Для обеспечения корректной работы системы потребуются следующие компоненты:
7 шт. Гибкий райзер PCI-E 4.0 60см.
2 шт. PCI-E X8 to PCI-E X16 адаптер
Синхронизатор блоков питания
Кабель SFF8654-8i to 2x U2(SFF8639) 1м
Рекомендуем приобретать гибкие райзеры такого типа. Они меньше подвержены риску повреждения вследствии изгиба
Питание платформы:
Для обеспечения питанием столь нагруженной системы нам предстоит произвести подсчет мощностей. Подсчет будем производить грубо в большую сторону:
Материнская плата, ОЗУ ~ 150W
Процессор ~ 240W
Накопители ~ 30W
Видеокарты ~ 450W * 7 = 3150W
Итого общее энергопотребление системы в пике составит 3570W. Таким образом для обеспечения энергией, мы рекомендуем использовать два источника по 2000W.
Надежный блок питания с сертификатом 80Plus Gold лучший выбор для высоконагруженных систем
Дополнительные расходы
Несмотря на преимущества установки видеокарт в риг, нередко ускорители ввиду своего крайне высокого TDP перегреваются. Чтобы обеспечить вентиляцию мы рекомендуем установить мощные серверные вентиляторы. Такая практика позволит выдувать горячий воздух и дать картам “дышать”.
Итоговая система
После сборки всех компонентов в единый вычислительный комплекс мы имеем отзывчивую систему, где практически все GPU работают на 100% относительно собственных возможностей.
Наименование
Режим работы PCI-E
GPU1
16 линий 4.0
GPU2
16 линий 4.0
GPU3
16 линий 4.0
GPU4
16 линий 4.0
GPU5
8 линий 4.0
GPU6
16 линий 4.0
GPU7
8 линий 4.0
Работа GPU5 и GPU6 в режиме X8 в малой степени скажется на их производительности, поскольку PCI-E 4.0 обладает достаточной пропускной способностью для интенсивной работы GPU в режиме X8.
В зависимости от ваших задач вы можете установить различные OS: Windows Server 2022, Ubuntu Server, Debian, CentOS. Где в последствии, сможете развернуть ваше приложение для работы с AI.
Построенная система обладает достаточной гибкостью и в рамках потребностей может быть модифицирована следующими компонентами:
Сетевой адаптер Mellanox или Intel для работы с высокоскоростным Ethernet соедиенением или Infiniband кластериризированием.
RAID контроллер для создания аппаратного RAID на SAS HDD, чтобы обеспечить дисковый пул большой емкости для хранения данных.
Установка 100 гигабитного сетевого адаптера Mellanox с поддержкой Infiniband даст возможность создать кластер из такого рода систем для дальнейшего масштабирования
Недостатки способа сборки:
Из недостатков такого способа сборки можно отметить:
Низкая надежность гибких райзеров.
Трудность транспортировки системы
Невозможность монтажа таких систем в стойку
Но как правило все эти недостатки нивелируются, поскольку построение систем в специализированных серверных корпусах вносит коррективы, которые не дают разместить столь высокое число GPU или кратно увеличивают бюджет сборки за счет дорогостоящего серверного шасси.
Какую систему выбрать. Кастомную или готовую от производителя
Ответ на этот вопрос специалисты ServerFlow видят следующим образом.
Если ваша компания не обладает существенными финансами, и вы только начинаете работать с ИИ - приобретайте кастомную систему. Она сохранит ваши средства и станет отправной точной в сферу ИИ.
Если же это не первое знакомство с искусственным интеллектом и ваша компания успешно монетизирует свои труды мы рекомендуем приобретать уже готовые решения от Supermicro, DELL, HPE, H3C. Поскольку за надбавленную стоимость такие системы дают возможность легко масштабировать число систем и без проблем сдавать их на колокейшн в ведущие ДЦ.
В наличии имеются специализированные платформы для установки до 10 GPU Nvidia Tesla. Такие системы без проблем монтируются в стойку и имеют ряд преимуществ перед их кастомными аналогами
Вывод
В условиях кратно растущего рынка AI технологий, все больше компаний нуждаются в развитии собственных проектов на базе искусственного интеллекта для решения бизнес задач. Тема сборки сервера для ИИ является оправданной, поскольку именно такое решение дает возможность для экспериментов разработчику. Обучайте ваши модели быстро и эффективно. Оптимизируйте обучение под архитектуру системы, а также видоизменяйте архитектуру под нужны ПО. Физический сервер решает задачи, которые невозможно решить на базе арендованного выделенного сервера у поставщика IT услуг. Специалисты ServerFlow готовы ответить на любые вопросы в тематике сборке серверов для обучения нейросетей, просто задайте вопрос в онлайн чате на сайте или в Telegram @serverflow
06.12 2024
OpenAI выпустила ChatGPT o1 Pro
Новости
06.12 2024
Появилась информация и скором выпуске видеокарт AMD Radeon RX 8600 и Radeon RX 8800 на архитектуре RDNA4
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.