Top.Mail.Ru
Советы по покупке сервера для ИИ: оптимальное решение для обучения нейронных сетей | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Советы по покупке сервера для ИИ: оптимальное решение для обучения нейронных сетей

~ 20 мин
2491
Средний
Статьи
Советы по покупке сервера для ИИ: оптимальное решение для обучения нейронных сетей
Содержание:

Введение

Всем привет! Это Server Flow, и сегодня мы рады поделиться с вами нашим опытом по сборке GPU серверов, идеально подходящих для инференса и обучения больших языковых моделей (LLM) и других разновидностей искусственного интеллекта.

В этом лонгриде мы расскажем о различных вариантах серверных платформ, которые можно использовать в качестве надежной основы для высокопроизводительных серверов ИИ. Также мы затронем тему выбора видеокарт для искусственного интеллекта, что не менее важно, чем сам сервер.

Все варианты серверов, которые мы разберем ниже подойдут для запуска мультимодальных LLAMA 3.2 11B*, LLAMA 3.2 90B* и максимально мощной LLAMA 3.1 405B*. После подробного рассказа о серверах мы рассчитаем оптимальные конфигурации для локального развертывания этих моделей.

Все начинается с GPU

Nvidia A100 для обучения ИИ

Прежде чем мы начнем обсуждение серверов, хочу подчеркнуть, что производительность вашего сервера будет зависеть в первую очередь от GPU. Графические процессоры играют роль источника вычислительной мощности, а серверные платформы служат элементом, который позволяет масштабировать системы и создавать мощные узлы в рамках единой инфраструктуры.

Итак давайте разберемся какие ускорители можно устанавливать в GPU сервера:

Обе серии ускорителей, упомянутые выше, оснащены пассивными системами охлаждения, что идеально сочетается с концепцией GPU серверов, где само серверное шасси отвечает за нагнетание потока воздуха и охлаждение компонентов. Однако стоит отметить, что ускорители Tesla более распространены и имеют лучшую программную поддержку благодаря архитектуре ядер CUDA. В то время как ускорители Radeon Instinct адаптируют программный код через программную прослойку ROCm.

Давайте предметно изучим какие ускорители доступны к интеграции в сервера:

Наименование ускорителя Объем VRAM и ее тип Производительность FP32 Производительность FP16/BFLOAT16
NVIDIA Tesla P100 16GB HBM2 10.6 TFLOPS 21.6 TFLOPS
NVIDIA Tesla P40 24GB GDDR5 11.76 TFLOPS 183 GFLOPS
AMD Radeon Instinct MI50 16GB HBM2 13 TFLOPS 28.8 TFLOPS
NVIDIA Tesla V100 16GB HBM2 14 TFLOPS 112 TFLOPS
NVIDIA Tesla V100 32GB HBM2 14 TFLOPS 112 TFLOPS
NVIDIA A100 40GB HBM2e 312 TFLOPS 624 TFLOPS
NVIDIA L40 48GB GDDR6 181 TFLOPS 362 TFLOPS
NVIDIA H100 80GB HBM2e 989 TFLOPS 1979 TFLOPS
Теперь предлагаю вам разобраться в этом обилии технической информации:

  • Объем видеопамяти - Чем больше объем видеопамяти, тем лучше. Большой объем видеопамяти позволяет запускать неквантизированные варианты моделей LLM и в целом проводить инференс и обучение без каких-либо ограничений. Помимо объема, обратите внимание на тип видеопамяти. HBM предпочтительна, если ваши задачи включают обучение, так как это требует значительной пропускной способности для достижения эффективной работы.
  • Производительность FP32 - Вычисления с полной точностью необходимы для работы неквантизированных моделей ИИ, требующих огромного объема памяти, особенно если модели имеют миллиарды параметров.
  • Производительность FP16 - Вычисления с половинной точностью являются наиболее распространенным вариантом работы с весами моделей ИИ, так как он сочетает в себе улучшенное быстродействие, экономию VRAM и практически незаметную потерю точности в ответах ИИ.
Итог — выбор ускорителей следует делать, исходя из бюджета, объема памяти и производительности в режиме вычислений с половинной точностью(FP16).

Nvidia GP100 HBM2
Именно так выглядит графический процессор GP100 с интегрированными 4-мя стеками HBM2 памяти суммарным объемом 16 GB, который является основой для ускорителя Tesla P100.

Пару слов о процессорах


Прежде чем мы перейдем к предметному разговору о платформах, хочу ещё раз отметить, что в рамках работы с ИИ процессор обычно выполняет хост-функцию. То есть он служит связующим звеном между GPU, RAM и SSD. Если полностью абстрагироваться от идеи инференса и обучения на процессоре, то основные требования к процессору можно выразить следующим образом:

  • Число ядер: не менее 16 шт.
  • Тактовая частота: как можно выше
  • Кол-во линий PCI-E: чем больше, тем лучше
  • Объем кэш памяти: чем больше, тем лучше
Также для вашего удобства мы подготовили таблицу в которой разбили самые востребованные линейки процессоров по поколениям. Это поможет вам лучше понять какие преимущества вам дает каждый из представителей CPU при выборе серверной платформы.

Процессоры Intel

Xeon Gold 6444Y

Модельный ряд процессоров Intel отличается следующими характеристиками:

Линейка процессоров Число линий PCI-E Поддержка линий PCI-e
Xeon E5 2600v4 40 3.0
Intel Xeon Scalable 1 Gen 48 3.0
Intel Xeon Scalable 2 Gen 48 3.0
Intel Xeon Scalable 3 Gen 64 4.0
Intel Xeon Scalable 4 Gen 80 5.0
Intel Xeon Scalable 5 Gen 80 5.0
Xeon 6900 Performance 96 5.0

Процессоры AMD

AMD EPYC 7713

Процессоры от красной компании в свою очередь имеют некоторое преимущество над Intel:

Линейка процессоров Число линий PCI-E Поддержка линий PCI-e
EPYC 7002(Zen2) 128 4.0
EPYC 7003(Zen3) 128 4.0
EPYC 9004(Zen4) 128 5.0
EPYC 9005(Zen5) 128 5.0
Если резюмировать - то под эти задачи идеально подходят CPU от AMD - линейки AMD EPYC, благодря максимальному числу линий PCI-E и поддержке современного стандарта PCI-E. А из процессоров Intel можно выделить топовые модели Xeon Gold и Platinum 1-2 поколения, а лучше 3-5 поколения. Однако и более старые процеессоры серий Xeon E5 могут выполнять эти функции, однако они несколько ограничивают возможности масштабирования системы и мы не рекомендуем использовать их с GPU соответствующего ценового диапазона.

GPU Платформы LGA2011-3

В ассортименте Server Flow представлено несколько GPU платформ на базе легендарных процессоров Xeon E5. Эти платформы основаны на PCI-E 3.0 и идеально подходят для конфигураций с ограниченным бюджетом

Supermicro SuperServer 1028GR-TR: Идеальное решение для инференса ИИ

GPU сервер Supermicro SuperServer 1028GR-TR

SuperServer 1028GR-TR — это компактное 1U шасси, которое позволяет разместить до трех полноразмерных GPU. Это устройство предоставляет уникальные преимущества для построения высокопроизводительных систем для инференса и обучения искусственного интеллекта (ИИ).

Supermicro SuperServer 4028GR-TR: Высокопроизводительное решение для обучения и инференса ИИ 

GPU сервер Supermicro SuperServer 4028GR-TR

SuperServer 4028GR-TR — это сервер форм-фактора 4U, который предоставляет возможность установки до 8 GPU ускорителей в связке с процессорами Xeon E5. Это шасси выделяется демократичной стоимостью и дает возможность создать систему с большим объемом видеопамяти (VRAM), что крайне важно для работы с большими языковыми моделями (LLM).

GPU Платформы LGA3647

Переход к обновленным архитектурам Skylake-SP и Cascade Lake стал значительным шагом вперед в эволюции GPU серверов. Эти архитектуры, использующие процессоры с сокетом LGA3647, привнесли ряд ключевых улучшений, особенно заметных в серверах на базе процессоров Xeon Gold и Platinum 1-2 поколений.

Supermicro SuperServer 2029GP-TR: Высокопроизводительное 2U шасси для ИИ

GPU сервер Supermicro SuperServer 2029GP-TR

SuperServer 2029GP-TR — это продвинутое 2U шасси, которое позволяет установить до 6 видеокарт без потери их пропускной способности. Этот сервер предлагает отличные возможности для создания мощных и эффективных систем для инференса и обучения искусственного интеллекта (ИИ).

Supermicro SuperServer 4029GP-TRT2: Эволюция 4U платформы для ИИ

GPU сервер Supermicro SuperServer 4029GP-TRT2

SuperServer 4029GP-TRT2 — это эволюция 4U платформы на сокете LGA 3647. В отличие от предшественника, эта модель оснащена новым поколением PCI-E Switch, что повышает эффективность взаимодействия видеокарт и CPU. Также обновленный бекплейн поддерживает до четырех гибридных U2 слотов для интеграции NVMe накопителей, что обеспечивает высокоскоростное хранение данных.

GPU Платформы SP3(AMD EPYC)

Supermicro A+ Server 4124GS-TNR: Эталонное решение для самых требовательных LLM

GPU сервер Supermicro A+ Server 4124GS-TNR 4U 24SFF

A+ Server 4124GS-TNR 4U 24SFF – это эталонное GPU шасси, позволяющее подключать GPU напрямую без использования PCI-E Switch. Это практически устраняет задержки между GPU и значительно ускоряет процессы инференса и обучения. Процессоры AMD EPYC 7003 Millan великолепно справляются с хост-функционалом, обеспечивая высокую производительность и надежность. Это делает их идеальным выбором для задач искусственного интеллекта и высокопроизводительных вычислений.

Сборка под LLAMA 11B*

Для того чтобы понять какие решения могут обеспечить достойную производительность в развертывании LLAMA 11B* нам нужно точно понимать какие требования предъявляет эта модель ИИ к инференсу и обучению. Эти сведения дадут устойчивое понимание сможем ли мы использовать эту модель в режиме полной точности.

  • FP32: Около 180 ГБ VRAM для инференса и до 1.5 ТБ VRAM для обучения.
  • FP16: Около 90 ГБ VRAM для инференса и до 750 ГБ VRAM для обучения.
  • FP8: Около 22.5 ГБ VRAM для инференса и до 187.5 ГБ VRAM для обучения.
МодельРешение Суммарный объем видеопамяти
LLAMA 11B* (FP32) SuperServer 4028GR-TR 4U
CPU: 2x Xeon 2687Wv4
RAM: 512GB DDR4 ECC REG
GPU: 8x Tesla P40 24GB
192GB
LLAMA 11B* (FP16) SuperServer 2029GP-TR 2U
CPU: 2x Xeon Gold 6154
RAM: 256GB DDR4 ECC REG
GPU: 3x Tesla V100 32GB
96GB
LLAMA 11B* (FP8) SuperServer 1028GR-TR 1U
CPU: 2x Xeon 2687Wv4
RAM: 128GB DDR4 ECC REG
GPU: 3x Tesla P100 16GB
48GB

Сборка под LLAMA 3.2 90B*

Расширенная версия LLAMA 3.2 90B* действительно имеет существенно более высокие системные требования. Чтобы обеспечить эффективную работу с этой моделью, мы будем использовать ускорители более высокого класса класса и повысим требования к серверной платформе. Это позволит гарантировать высокую производительность как при инференсе, так и при обучении модели

  • FP32: Около 720 ГБ VRAM для инференса и до 2.5 ТБ VRAM для обучения..
  • FP16: Около 360 ГБ VRAM для инференса и до 1.25 ТБ VRAM для обучения.
  • FP8: Около 90 ГБ VRAM для инференса и до 375 ГБ VRAM для обучения.
МодельРешение Суммарный объем видеопамяти
LLAMA 90B* (FP32) A+ Server 4124GS-TNR 4U
CPU: 2x EPYC 75F3
RAM: 2TB DDR4 ECC REG
GPU: 8x Tesla H100 96GB
768GB
LLAMA 90B* (FP16) SuperServer 4029GP-TRT2 4U
CPU: 2x Xeon Gold 6254
RAM: 1024GB DDR4 ECC REG
GPU: 6x Tesla H100 80GB
480GB
LLAMA 11B* (FP8) SuperServer 2029GP-TR 2U
CPU: 2x Xeon 6246
RAM: 512GB DDR4 ECC REG
GPU: 6x Tesla V100 16GB
96GB

Сборка для LLAMA 3.1 405B*

LLAMA 3.1 405B* является самой требовательной моделью искусственного интеллекта, ориентированной исключительно на работу с текстовыми запросами. В отличие от предыдущих моделей серии 3.2, эта модель обучалась только на текстовых данных. Благодаря этому она достигает высокой точности в ответах на всевозможные вопросы и легко поддается дальнейшему обучению.

  • FP32:Около 972 ГБ VRAM для инференса и до 1944 ГБ VRAM для обучения.
  • FP16: Около 486 ГБ VRAM для инференса и до 972 ГБ VRAM для обучения.
  • FP8: Около 243 ГБ VRAM для инференса и до 486 ГБ VRAM для обучения.
Модель Решение Суммарный объем видеопамяти
LLAMA 405B* (FP32) A+ Server AS-8125GS-TNHR 8U
CPU: 2x EPYC 9374F
RAM: 4TB RAM
GPU: H200 SXM 141GB
1128GB
LLAMA 405B* (FP16) A+ Server 4124GS-TNR 4U
CPU: 2x EPYC 75F3
RAM: 2TB DDR4 ECC REG
GPU: 8x Instinct MI210 64GB
512GB
LLAMA 405B* (FP8) SuperServer 4029GP-TRT2 8U
CPU: 2x Xeon Gold 6254
RAM: 1024GB DDR4 ECC REG
GPU: 6x Tesla L40 48GB
288GB

Выводы

Искусственный интеллект и большие языковые модели (LLM) стали неотъемлемой частью жизни людей и компаний. Сегодня многие организации ищут способы локального запуска моделей, чтобы оптимизировать их под свои бизнес-потребности. Мы в Server Flow готовы всячески поддерживать компании в этом направлении.

Если вас заинтересовала тема сборки собственного сервера для искусственного интеллекта и развертывания таких популярных моделей, как LLAMA*, StableDiffusion, Mistral или GPT-4, вы можете обратиться к нашим специалистам. Мы подберем индивидуальное решение с учетом всех особенностей вашего ИИ и потребностей вашего бизнеса.

*LLAMA 3.2 — проект Meta Plarforms Inc.**, деятельность которой в России признана экстремистской и запрещена.

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)