Кастомный сервер для обучения нейросетей
- Что из себя представляет такая система
- Материнская плата под GPU
- Процессоры для работы с ИИ
- ОЗУ
- Охлаждение
- Накопители
- Видеокарты для искусственного интеллекта
- Корпус
- Переходники и адаптеры
- Питание платформы
- Дополнительные расходы
- Итоговая система
- Недостатки способа сборки
- Какую систему выбрать. Кастомную или готовую от производителя
- Вывод
Что из себя представляет такая система
Чтобы максимально повысить производительность системы, мы не используем потребительские корпуса, а переходим в концепцию ригов. Основным преимуществом ригов является высокая масштабируемость в области GPU с минимальными накладными расходами.Материнская плата под GPU:
Для работы такого рода устройства рекомендуется к установке материнская плата с обилием PCI-E 4.0 линий и гнездом для установки современных и производительных CPU.
Процессоры для работы с ИИ:
- AMD EPYC™ 7513 (32/64, 2.6GHz-3.6GHz, 200W, 128MB L3)
- AMD EPYC™ 7413 (24/48, 2.65GHz-3.6GHz, 180W, 128MB L3)
- AMD EPYC™ 7542 (32/64, 2.9GHz-3.4GHz, 225W, 128MB L3)

ОЗУ:

Охлаждение:
Поскольку в ригах нет ограничения по высоте СО, мы установим тихую 4U систему охлаждения с запасом по TDP
Накопители:
- 2 шт. SSD Samsung PM1733 1.92 TB (MZWLJ1T9HBJR-00007)

Видеокарты для искусственного интеллекта:
Видеокарты RTX
В случае наличия дополнительного бюджета мы можем рекомендовать к приобретению серию RTX(Quadro), которая построена на базе топовых чипов, а также оборудована двойным объемом видеопамяти:
Видеокарты RTX Quadro
В случае если вам требуется достигнуть максимального объема VRAM в рамках минимального бюджета вы можете использовать ускорители Tesla. За вменяемый бюджет они дают необходимый объем видеопамяти, что может значительно ускорить обучение моделей ИИ:
Видеокарты Tesla

Корпус
Переходники и адаптеры:
- 7 шт. Гибкий райзер PCI-E 4.0 60см.
- 2 шт. PCI-E X8 to PCI-E X16 адаптер
- Синхронизатор блоков питания
- Кабель SFF8654-8i to 2x U2(SFF8639) 1м

Питание платформы:
Для обеспечения питанием столь нагруженной системы нам предстоит произвести подсчет мощностей. Подсчет будем производить грубо в большую сторону:- Материнская плата, ОЗУ ~ 150W
- Процессор ~ 240W
- Накопители ~ 30W
- Видеокарты ~ 450W * 7 = 3150W

Дополнительные расходы
Несмотря на преимущества установки видеокарт в риг, нередко ускорители ввиду своего крайне высокого TDP перегреваются. Чтобы обеспечить вентиляцию мы рекомендуем установить мощные серверные вентиляторы. Такая практика позволит выдувать горячий воздух и дать картам “дышать”.Итоговая система
После сборки всех компонентов в единый вычислительный комплекс мы имеем отзывчивую систему, где практически все GPU работают на 100% относительно собственных возможностей.| Наименование | Режим работы PCI-E |
| GPU1 | 16 линий 4.0 |
| GPU2 | 16 линий 4.0 |
| GPU3 | 16 линий 4.0 |
| GPU4 | 16 линий 4.0 |
| GPU5 | 8 линий 4.0 |
| GPU6 | 16 линий 4.0 |
| GPU7 | 8 линий 4.0 |
Работа GPU5 и GPU6 в режиме X8 в малой степени скажется на их производительности, поскольку PCI-E 4.0 обладает достаточной пропускной способностью для интенсивной работы GPU в режиме X8.
В зависимости от ваших задач вы можете установить различные OS: Windows Server 2022, Ubuntu Server, Debian, CentOS. Где в последствии, сможете развернуть ваше приложение для работы с AI.
- Сетевой адаптер Mellanox или Intel для работы с высокоскоростным Ethernet соедиенением или Infiniband кластериризированием.
- RAID контроллер для создания аппаратного RAID на SAS HDD, чтобы обеспечить дисковый пул большой емкости для хранения данных.
Недостатки способа сборки:
- Низкая надежность гибких райзеров.
- Трудность транспортировки системы
- Невозможность монтажа таких систем в стойку
Какую систему выбрать. Кастомную или готовую от производителя
Ответ на этот вопрос специалисты ServerFlow видят следующим образом.Если ваша компания не обладает существенными финансами, и вы только начинаете работать с ИИ - приобретайте кастомную систему. Она сохранит ваши средства и станет отправной точной в сферу ИИ.
