Top.Mail.Ru
Как выбрать сервер для искусственного интеллекта: основные критерии и рекомендации | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Как выбрать сервер для искусственного интеллекта: основные критерии и рекомендации

~ 20 мин
17479
Простой
Статьи
Как выбрать сервер для искусственного интеллекта: основные критерии и рекомендации

Введение

Всего несколько лет назад серверы для искусственного интеллекта вряд ли входили даже в топ 5 самых продаваемых систем в нашем интернет-магазине. Однако в нынешних реалиях ситуация кардинально изменилась — теперь платформы для инференса и обучения искусственного интеллекта делают весомую долю выручки не только нам, но и всей мировой IT-индустрии. Почему так? Все просто — ИИ внедряется буквально во все сферы экономики — промышленность, финансовый сектор, медицину, безопасность и так далее. И это тенденция не только не снижается, но и возрастает семимильными шагами, чему способствует появление новых ИИ-моделей, возможности которых будоражат воображение. Но передовые возможности этих нейросетей не берутся из воздуха — для их обучения нужны огромные вычислительные мощности, при этом для их локального запуска предъявляются другие, но не менее жесткие требования, что многих сбивают с толку. В этой статье специалисты компании ServerFlow расскажут вам, на что обратить внимание при выборе сервера для ИИ, какое оборудование подойдет для инференса и для обучения, а также объясним, какие факторы необходимо учитывать при работе с ИИ в том или ином сценарии использования.

Инференс и обучение — в чем отличия?

Прежде чем говорить о железе, нужно четко разделить две принципиально разные задачи: инференс (выполнение готовых моделей) и обучение (тренировка или дообучение). Инференс нужен большинству компаний для решения повседневных задач: чат‑боты, анализ документов, генерация контента. Обучение — удел крупных исследовательских центров и организаций с огромными бюджетами, которые создают новые модели или адаптируют существующие под специфические данные.

Требования к железу различаются по нескольким ключевым параметрам:
  • Точность вычислений. Инференс почти всегда работает с квантизированными моделями — форматы INT8, FP8, NF4 позволяют уменьшить потребление памяти вплоть до 4 раз при минимальной потере точности. Обучение же ведется только в высокоточных форматах (FP16, BF16, FP32), требующих в 4-10 раз больше видеопамяти.
  • Масштабирование. При инференсе можно просто добавлять GPU — карты работают независимо, и NVLink для их межсоединения фактически не нужен. Для обучения, наоборот, необходима жесткая синхронизация градиентов, поэтому GPU объединяют через NVLink или специальные коммутаторы (NVSwitch) в единый кластер, который работает как одна супермощная видеокарта.
  • Актуальность. Модели устаревают быстро — пока вы тратите месяцы на дообучение ИИ-модели Qwen 3, Alibaba выпускает в релиз семейство Qwen 3.5, и все ваши усилия мгновенно обесцениваются, так как новая модель буквально во всем лучше. Инференс же можно вести на любой подходящей по ресурсам модели без привязки к дате релиза, и при выпуске новой нейронки вы можете просто перейти на более актуальный продукт.
А вот теперь разберем каждую из этих задач более подробно.

Сервер для инференса искусственного интеллекта

Сервер для инференса должен обеспечивать низкую задержку ответа и достаточную пропускную способность для обработки ваших запросов. Основная нагрузка ложится именно на GPU, но не менее важны и другие компоненты вашего сервера.

GPU

Видеокарты (GPU) — сердце системы. Для инференса подходят как современные серверные модели (NVIDIA RTX 6000 BlackwellA100L40L4), так и более доступные решения, включая игровые карты с большим объемом памяти — RTX 4090/5090 (32 ГБ). Главный критерий — объем видеопамяти. Например, чтобы запустить Qwen3-30B-A3B в квантизации 4 бита, нужно около 35-40 ГБ VRAM. Для Mistral 3 7B в 8 битах хватит 10–12 ГБ VRAM. При этом, модель занимает далеко не всю видеопамять: часть резервируется под KV-кэш (кэш ключей и значений для генерации), размер которого растет с длиной контекста. Например, для Qwen-3 14B с контекстом 4096 токенов KV-кэш может занять около 1 ГБ. Фактический объем VRAM всегда должен быть на 10-20% больше веса модели. Также нужно учитывать память под системные нужды драйвера и ИИ-библиотек.

Важный нюанс: новые модели могут использовать форматы точности, не поддерживаемые старыми GPU (например, FP4 на архитектуре Ada Lovelace или Hopper). Поэтому для инференса предпочтение стоит отдавать картам не старше 2-3 поколений. Тип охлаждения (турбинный или пассивный) выбирается в зависимости от условий интеграции оборудования: турбины лучше отводят тепло при плотной компоновке, пассивные требуют мощного общего обдува.

Стоит отметить, что помимо NVIDIA и AMD, на рынке есть ИИ-ускорители и от других производителей, например, решения Huawei Ascend или Intel Arc Pro. Конечно, они не так мощны, как флагманские решения главных поставщиков ИИ-оборудования, но их ценники и энергоэффективность могут стать решающим фактором для некоторых инфраструктур. Однако есть и минусы — они работают с собственными ИИ-фреймворками (CANN у Huawei и MESA у Intel) вместо привычных CUDA и ROCm, что может вызвать определенные проблемы с развертыванием у неподготовленных юзеров.

AMD Radeon AI PRO R9700 AI TOP 32GB и Nvidia RTX Pro 6000 Blackwell Workstation Edition
Для легкого потребительского инференса будет достаточно профессиональных решений AMD Radeon AI PRO R9700 AI TOP 32GB, тогда как для запуска больших LLM на 100+ миллиардов параметров понадобится уже пред-корпоративные ускорители Nvidia RTX Pro 6000 Blackwell Workstation Edition.

CPU

Процессор (CPU) — для инференса с GPU достаточно современного процессора с поддержкой PCIe 4.0/5.0 и количеством ядер от 8 до 16. Основная нагрузка ложится на видеокарты, CPU только подготавливает данные и управляет очередями. Однако если вы планируете инференс исключительно на CPU (например, с использованием движка llama.cpp), потребуется действительно мощный проц с большим количеством ядер (от 32 и выше) и высокочастотной многоканальной памятью, а также огромные объемы оперативной памяти, ввиду чего инференс на CPU становится крайне невыгодным занятием в условиях кризиса памяти. Даже если вам хватит средств на такую сборку, будьте готовы столкнуться с низкой скоростью логического вывода ИИ, которая не идет ни в какое сравнение со скоростью инференса на GPU. Тем не менее, компромиссом стали компактные ИИ-ПК с APU-чипами (вроде AMD Ryzen AI Max+ 395 и Nvidia GB10) и большим объемом унифицированной памяти LPDDR5 — с их помощью можно вполне успешно запускать небольшие ИИ-модели локально без графического ускорителя, а если объединить их в кластер, то возможности инференса значительно расширяются.

Intel Xeon и AMD EPYC
Процессоры Intel Xeon и AMD EPYC для сервера ИИ-инференса.

RAM

Оперативная память — при использовании GPU объем оперативной памяти нужен для загрузки модели перед ее передачей в видеопамять и для хранения сопутствующих данных (токенов, контекста). Для квантизированных моделей до 30-40 ГБ достаточно 64 ГБ ОЗУ. Если модель не помещается целиком во VRAM, часть данных может оставаться в RAM, что резко замедляет работу ИИ из-за своппинга. При инференсе на CPU объем RAM становится критическим: для Qwen3.5-122B-A10B в 4 битах  (Q4_K_M) потребуется 76,5 ГБ (не забывайте про накладные расходы, берите минимум 96 ГБ RAM).

SSD

Накопители — модели весят десятки или даже сотни гигабайт. Чтобы быстро загружать их в память при старте инференса или переключении между нейронками, нужны NVMe SSD с высокой скоростью последовательного чтения. SATA SSD или тем более HDD не подходят для этой задачи, так как создают критические задержки. Рекомендуется выделить отдельный быстрый накопитель или даже отдельный RAID-массив под библиотеку моделей. Для подгрузки того же Qwen3.5-122B-A10B вам потребуется примерно 26 секунд при использовании M2 PCI-E 3.0, поэтому вопрос скорости подсистемы памяти не так то прост, как вам кажется —  ведь не просто так начался кризис NAND?

Solidigm D7-PS1010
SSD-накопитель Solidigm серии D7-PS1010 для сервера инференса ИИ.

Серверная платформа

Форм-фактор и охлаждение — сервер для инференса может быть выполнен как в виде рабочей станции (настольный корпус с 1-4 GPU), так и в виде стоечного сервера высотой 2U-4U, позволяющего установить до 10 и более карт. Выбор зависит от масштаба инференса: для дома или малого бизнеса часто достаточно мощной рабочей станции, но для SaaS-стартапов необходимы мощные серверы с топовыми комплектующими и функцией горячей замены компонентов. Охлаждение должно быть рассчитано на тепловыделение карт (до 300-600 Вт каждая), иначе перегрев приведет к троттлингу и огромному падению производительности.

Сборка рабочей станции для ИИ-инференса
Сборка рабочей станции для ИИ-инференса на базе двух GPU.

Сервер для обучения искусственного интеллекта

Обучение нейросетей — задача принципиально иного уровня сложности. Здесь нужны не просто большие объемы памяти, а максимальная пропускная способность и сверхбыстрые связи между GPU.

GPU

GPU с HBM-памятью — для обучения используют ускорители с памятью HBM (High Bandwidth Memory). Минимальным стандартом сегодня является NVIDIA A100 (40 или 80 ГБ HBM2e), более производительные варианты — Nvidia H100 (80-144 ГБ HBM3), а также AMD MI210 на 64 ГБ памяти HBM2e. Эти карты имеют встроенные высокоскоростные интерфейсы (NVLink, Infinity Fabric) для объединения в кластер и, что самое главное, поддерживают интеграцию в стандартные интерфейсы PCIe. Потребительские карты (RTX 4090, 5090) не имеют HBM и быстрых межсоединений, поэтому для распределенного обучения больших моделей они малопригодны, хотя для экспериментов с одной картой и небольшими моделями (до 20-30 млрд параметров) их можно вполне успешно использовать.

ИИ-ускоритель Nvidia V100 с HBM-памятью
Высокоскоростная память HBM — ключевой компонент любой системы обучения искусственного интеллекта.

Связь

NVLink и специализированные форм-факторы (SXM, OAM) — для обучения критически важна возможность объединения нескольких GPU в единое адресное пространство с минимальными задержками. NVLink обеспечивает скорость до 900 ГБ/с между картами, а NVSwitch позволяет создать полностью связанную топологию (например, 8 GPU общаются друг с другом без каких-либо задержек). Карты в исполнении SXM (NVIDIA) или OAM (AMD) вставляются в специальные разъемы на материнской плате и соединяются через коммутаторы, минуя шину PCIe. Это позволяет обучать модели, не помещающиеся в память одной карты, за счет тензорного параллелизма. В потребительском сегменте NVLink доступен только на устаревших RTX 3090 (и то в урезанном виде), начиная с RTX 40 серии его нет — две RTX 4090 объединить в кластер для обучения не получится.

Nvidia NVLink Bridge
NVLink Bridge для объединения нескольких GPU Nvidia H100 в единую систему.

Интерконнект

Сеть и кластерные соединения — при обучении на нескольких серверах необходимы высокоскоростные сетевые интерфейсы (InfiniBand или RoCE со скоростью 200–400 Гбит/с) и поддержка RDMA для прямого обмена данными между GPU разных узлов. Используются специальные коммутаторы (например, Mellanox Spectrum), создающие неблокирующую топологию (например, Fat‑Tree). Без такой сети синхронизация градиентов станет узким местом и эффективность кластера резко упадет.

Сетевой коммутатор для объединения ИИ-серверов в кластер
Когда требования вашей ИИ-системы выйдут за рамки одного сервера, вам не обойтись без кластера из нескольких вычислительных платформ, объединенных с помощью свичей.

Серверная платформа

Форм-фактор и системы охлаждения — серверы для обучения выпускаются в виде специализированных платформ, таких как NVIDIA DGX/HGX, где 8 GPU уже установлены на одной плате с NVSwitch и полностью готовы к эксплуатации без дополнительных инженерных ухищрений. Охлаждение может быть воздушным или жидкостным. Типичное энергопотребление одного сервера с 8×H100 достигает 10-12 кВт, поэтому требуется система охлаждения промышленного класса и усиленная подача электропитания.

Стоит отметить, что компания Nvidia поставляет топовые GPU не только в виде отдельных серверов, но и в виде готовых серверных стоек — NVL72. Это вершина инженерной мысли, объединяющая в себе до 72 GPU Nvidia (Blackwell, а в скором времени и Rubin), а также различные коммутаторы и свичи NVLink для обеспечения высокоскоростной связи между ускорителями без задержек. Это позволяет обучать модели с сотнями миллиардов или даже триллионами параметров, но и цена таких решений исчисляется миллионами долларов, и они доступны лишь крупнейшим облачным гиперскелерам. В планах компании — создание кластеров на 144 и 576 ускорителей, которые предложат совершенно иной уровень производительности для обучения ИИ-моделей.

GPU-сервер 4U в сравнении с 1U-сервером
Для обучения ИИ почти никогда не хватит одного GPU — будьте готовы собирать полноценный GPU-сервер на 8 ускорителей.

CPU

Процессор (CPU) — для серверов обучения требуется процессор с максимальным количеством ядер и поддержкой большого количества линий PCIe (обычно AMD EPYC 4-го/5-го поколения или Intel Xeon 6-го поколения). CPU отвечает за подготовку данных (data loading), управление кластером и координацию — по сути, он выступает только в роли хоста для ввода-вывода. Важно наличие достаточного количества линий PCIe 5.0 для подключения GPU и быстрых сетевых карт.

Мощный серверный процессор AMD EPYC 9684X
Мощный серверный процессор AMD EPYC 9684X — отличное решение для вашего сервера обучения ИИ.

RAM

Оперативная память (RAM) — объем оперативной памяти в сервере обучения должен быть достаточным для хранения датасетов и промежуточных состояний. Рекомендуется соотношение 1:2 или 1:4 от суммарной видеопамяти (например, для 8×A100 80 ГБ (640 ГБ VRAM) нужно не менее 256-512 ГБ ОЗУ). В некоторых случаях (например, при обучении с большим контекстом) модель может частично выгружаться в RAM, поэтому обзавестись запасом будет не лишним.

12 модулей оперативной памяти DDR5 для ИИ-сервера
Для ИИ-сервера нужно очень много оперативки, поэтому подобные системы в текущем кризисном состоянии рынка — очень дорогое удовольствие.

SSD

Накопители — обучение требует сверхбыстрого доступа к данным. Используются NVMe-массивы с RAID и пропускной способностью в десятки гигабайт в секунду. Медленное хранилище приводит к простою GPU в ожидании данных, что кратно увеличивает время на обучение ИИ-модели.

Выводы

Прежде чем вываливать солидную котлету за ИИ-сервер, определитесь, для каких задач вы его будете использовать, ведь требования для сервера инференса и для сервера обучения кардинально отличаются. Если вы хотите просто запускать готовые модели — просто берите карты с большим объемом памяти (от 32 ГБ) и развертывайте легкие квантизированные модели. Если вы хотите обучать собственные модели — приготовьте внушительную сумму на профессиональные GPU с HBM, NVLink и InfiniBand. И помните, что ИИ-индустрия развивается со скоростью света, и та сборка, которая еще вчера была актуальна, сегодня может начать тянуть только слабые, устаревшие нейронки, несравнимые с современными open-source решениями. Но если вы хотите собрать действительно мощный ИИ-сервер для обучения и инференса, который еще долго будет радовать вас своей производительностью и поддержкой флагманских нейронок, обращайтесь в компанию ServerFlow. Наши специалисты подберут оптимальную конфигурацию в зависимости от ваших задач и требований, помогут с установкой, настройкой всего сопутствующего софта и проведут вас за руку от покупки до запуска вашей ИИ-котлеты.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)