Всего несколько лет назад серверы для искусственного интеллекта вряд ли входили даже в топ 5 самых продаваемых систем в нашем интернет-магазине. Однако в нынешних реалиях ситуация кардинально изменилась — теперь платформы для инференса и обучения искусственного интеллекта делают весомую долю выручки не только нам, но и всей мировой IT-индустрии. Почему так? Все просто — ИИ внедряется буквально во все сферы экономики — промышленность, финансовый сектор, медицину, безопасность и так далее. И это тенденция не только не снижается, но и возрастает семимильными шагами, чему способствует появление новых ИИ-моделей, возможности которых будоражат воображение. Но передовые возможности этих нейросетей не берутся из воздуха — для их обучения нужны огромные вычислительные мощности, при этом для их локального запуска предъявляются другие, но не менее жесткие требования, что многих сбивают с толку. В этой статье специалисты компании ServerFlow расскажут вам, на что обратить внимание при выборе сервера для ИИ, какое оборудование подойдет для инференса и для обучения, а также объясним, какие факторы необходимо учитывать при работе с ИИ в том или ином сценарии использования.
Инференс и обучение — в чем отличия?
Прежде чем говорить о железе, нужно четко разделить две принципиально разные задачи: инференс (выполнение готовых моделей) и обучение (тренировка или дообучение). Инференс нужен большинству компаний для решения повседневных задач: чат‑боты, анализ документов, генерация контента. Обучение — удел крупных исследовательских центров и организаций с огромными бюджетами, которые создают новые модели или адаптируют существующие под специфические данные.
Требования к железу различаются по нескольким ключевым параметрам:
Точность вычислений. Инференс почти всегда работает с квантизированными моделями — форматы INT8, FP8, NF4 позволяют уменьшить потребление памяти вплоть до 4 раз при минимальной потере точности. Обучение же ведется только в высокоточных форматах (FP16, BF16, FP32), требующих в 4-10 раз больше видеопамяти.
Масштабирование. При инференсе можно просто добавлять GPU — карты работают независимо, и NVLink для их межсоединения фактически не нужен. Для обучения, наоборот, необходима жесткая синхронизация градиентов, поэтому GPU объединяют через NVLink или специальные коммутаторы (NVSwitch) в единый кластер, который работает как одна супермощная видеокарта.
Актуальность. Модели устаревают быстро — пока вы тратите месяцы на дообучение ИИ-модели Qwen 3, Alibaba выпускает в релиз семейство Qwen 3.5, и все ваши усилия мгновенно обесцениваются, так как новая модель буквально во всем лучше. Инференс же можно вести на любой подходящей по ресурсам модели без привязки к дате релиза, и при выпуске новой нейронки вы можете просто перейти на более актуальный продукт.
А вот теперь разберем каждую из этих задач более подробно.
Сервер для инференса искусственного интеллекта
Сервер для инференса должен обеспечивать низкую задержку ответа и достаточную пропускную способность для обработки ваших запросов. Основная нагрузка ложится именно на GPU, но не менее важны и другие компоненты вашего сервера.
GPU
Видеокарты (GPU) — сердце системы. Для инференса подходят как современные серверные модели (NVIDIA RTX 6000 Blackwell, A100, L40, L4), так и более доступные решения, включая игровые карты с большим объемом памяти — RTX 4090/5090 (32 ГБ). Главный критерий — объем видеопамяти. Например, чтобы запустить Qwen3-30B-A3B в квантизации 4 бита, нужно около 35-40 ГБ VRAM. Для Mistral 3 7B в 8 битах хватит 10–12 ГБ VRAM. При этом, модель занимает далеко не всю видеопамять: часть резервируется под KV-кэш (кэш ключей и значений для генерации), размер которого растет с длиной контекста. Например, для Qwen-3 14B с контекстом 4096 токенов KV-кэш может занять около 1 ГБ. Фактический объем VRAM всегда должен быть на 10-20% больше веса модели. Также нужно учитывать память под системные нужды драйвера и ИИ-библиотек.
Важный нюанс: новые модели могут использовать форматы точности, не поддерживаемые старыми GPU (например, FP4 на архитектуре Ada Lovelace или Hopper). Поэтому для инференса предпочтение стоит отдавать картам не старше 2-3 поколений. Тип охлаждения (турбинный или пассивный) выбирается в зависимости от условий интеграции оборудования: турбины лучше отводят тепло при плотной компоновке, пассивные требуют мощного общего обдува.
Стоит отметить, что помимо NVIDIA и AMD, на рынке есть ИИ-ускорители и от других производителей, например, решения Huawei Ascend или Intel Arc Pro. Конечно, они не так мощны, как флагманские решения главных поставщиков ИИ-оборудования, но их ценники и энергоэффективность могут стать решающим фактором для некоторых инфраструктур. Однако есть и минусы — они работают с собственными ИИ-фреймворками (CANN у Huawei и MESA у Intel) вместо привычных CUDA и ROCm, что может вызвать определенные проблемы с развертыванием у неподготовленных юзеров.
Для легкого потребительского инференса будет достаточно профессиональных решений AMD Radeon AI PRO R9700 AI TOP 32GB, тогда как для запуска больших LLM на 100+ миллиардов параметров понадобится уже пред-корпоративные ускорители Nvidia RTX Pro 6000 Blackwell Workstation Edition.
CPU
Процессор (CPU) — для инференса с GPU достаточно современного процессора с поддержкой PCIe 4.0/5.0 и количеством ядер от 8 до 16. Основная нагрузка ложится на видеокарты, CPU только подготавливает данные и управляет очередями. Однако если вы планируете инференс исключительно на CPU (например, с использованием движка llama.cpp), потребуется действительно мощный проц с большим количеством ядер (от 32 и выше) и высокочастотной многоканальной памятью, а также огромные объемы оперативной памяти, ввиду чего инференс на CPU становится крайне невыгодным занятием в условиях кризиса памяти. Даже если вам хватит средств на такую сборку, будьте готовы столкнуться с низкой скоростью логического вывода ИИ, которая не идет ни в какое сравнение со скоростью инференса на GPU. Тем не менее, компромиссом стали компактные ИИ-ПК с APU-чипами (вроде AMD Ryzen AI Max+ 395 и Nvidia GB10) и большим объемом унифицированной памяти LPDDR5 — с их помощью можно вполне успешно запускать небольшие ИИ-модели локально без графического ускорителя, а если объединить их в кластер, то возможности инференса значительно расширяются.
Процессоры Intel Xeon и AMD EPYC для сервера ИИ-инференса.
RAM
Оперативная память — при использовании GPU объем оперативной памяти нужен для загрузки модели перед ее передачей в видеопамять и для хранения сопутствующих данных (токенов, контекста). Для квантизированных моделей до 30-40 ГБ достаточно 64 ГБ ОЗУ. Если модель не помещается целиком во VRAM, часть данных может оставаться в RAM, что резко замедляет работу ИИ из-за своппинга. При инференсе на CPU объем RAM становится критическим: для Qwen3.5-122B-A10B в 4 битах (Q4_K_M) потребуется 76,5 ГБ (не забывайте про накладные расходы, берите минимум 96 ГБ RAM).
SSD
Накопители — модели весят десятки или даже сотни гигабайт. Чтобы быстро загружать их в память при старте инференса или переключении между нейронками, нужны NVMe SSD с высокой скоростью последовательного чтения. SATA SSD или тем более HDD не подходят для этой задачи, так как создают критические задержки. Рекомендуется выделить отдельный быстрый накопитель или даже отдельный RAID-массив под библиотеку моделей. Для подгрузки того же Qwen3.5-122B-A10B вам потребуется примерно 26 секунд при использовании M2 PCI-E 3.0, поэтому вопрос скорости подсистемы памяти не так то прост, как вам кажется — ведь не просто так начался кризис NAND?
SSD-накопитель Solidigm серии D7-PS1010 для сервера инференса ИИ.
Серверная платформа
Форм-фактор и охлаждение — сервер для инференса может быть выполнен как в виде рабочей станции (настольный корпус с 1-4 GPU), так и в виде стоечного сервера высотой 2U-4U, позволяющего установить до 10 и более карт. Выбор зависит от масштаба инференса: для дома или малого бизнеса часто достаточно мощной рабочей станции, но для SaaS-стартапов необходимы мощные серверы с топовыми комплектующими и функцией горячей замены компонентов. Охлаждение должно быть рассчитано на тепловыделение карт (до 300-600 Вт каждая), иначе перегрев приведет к троттлингу и огромному падению производительности.
Сборка рабочей станции для ИИ-инференса на базе двух GPU.
Сервер для обучения искусственного интеллекта
Обучение нейросетей — задача принципиально иного уровня сложности. Здесь нужны не просто большие объемы памяти, а максимальная пропускная способность и сверхбыстрые связи между GPU.
GPU
GPU с HBM-памятью — для обучения используют ускорители с памятью HBM (High Bandwidth Memory). Минимальным стандартом сегодня является NVIDIA A100 (40 или 80 ГБ HBM2e), более производительные варианты — Nvidia H100 (80-144 ГБ HBM3), а также AMD MI210 на 64 ГБ памяти HBM2e. Эти карты имеют встроенные высокоскоростные интерфейсы (NVLink, Infinity Fabric) для объединения в кластер и, что самое главное, поддерживают интеграцию в стандартные интерфейсы PCIe. Потребительские карты (RTX 4090, 5090) не имеют HBM и быстрых межсоединений, поэтому для распределенного обучения больших моделей они малопригодны, хотя для экспериментов с одной картой и небольшими моделями (до 20-30 млрд параметров) их можно вполне успешно использовать.
Высокоскоростная память HBM — ключевой компонент любой системы обучения искусственного интеллекта.
Связь
NVLink и специализированные форм-факторы (SXM, OAM) — для обучения критически важна возможность объединения нескольких GPU в единое адресное пространство с минимальными задержками. NVLink обеспечивает скорость до 900 ГБ/с между картами, а NVSwitch позволяет создать полностью связанную топологию (например, 8 GPU общаются друг с другом без каких-либо задержек). Карты в исполнении SXM (NVIDIA) или OAM (AMD) вставляются в специальные разъемы на материнской плате и соединяются через коммутаторы, минуя шину PCIe. Это позволяет обучать модели, не помещающиеся в память одной карты, за счет тензорного параллелизма. В потребительском сегменте NVLink доступен только на устаревших RTX 3090 (и то в урезанном виде), начиная с RTX 40 серии его нет — две RTX 4090 объединить в кластер для обучения не получится.
NVLink Bridge для объединения нескольких GPU Nvidia H100 в единую систему.
Интерконнект
Сеть и кластерные соединения — при обучении на нескольких серверах необходимы высокоскоростные сетевые интерфейсы (InfiniBand или RoCE со скоростью 200–400 Гбит/с) и поддержка RDMA для прямого обмена данными между GPU разных узлов. Используются специальные коммутаторы (например, Mellanox Spectrum), создающие неблокирующую топологию (например, Fat‑Tree). Без такой сети синхронизация градиентов станет узким местом и эффективность кластера резко упадет.
Когда требования вашей ИИ-системы выйдут за рамки одного сервера, вам не обойтись без кластера из нескольких вычислительных платформ, объединенных с помощью свичей.
Серверная платформа
Форм-фактор и системы охлаждения — серверы для обучения выпускаются в виде специализированных платформ, таких как NVIDIA DGX/HGX, где 8 GPU уже установлены на одной плате с NVSwitch и полностью готовы к эксплуатации без дополнительных инженерных ухищрений. Охлаждение может быть воздушным или жидкостным. Типичное энергопотребление одного сервера с 8×H100 достигает 10-12 кВт, поэтому требуется система охлаждения промышленного класса и усиленная подача электропитания.
Стоит отметить, что компания Nvidia поставляет топовые GPU не только в виде отдельных серверов, но и в виде готовых серверных стоек — NVL72. Это вершина инженерной мысли, объединяющая в себе до 72 GPU Nvidia (Blackwell, а в скором времени и Rubin), а также различные коммутаторы и свичи NVLink для обеспечения высокоскоростной связи между ускорителями без задержек. Это позволяет обучать модели с сотнями миллиардов или даже триллионами параметров, но и цена таких решений исчисляется миллионами долларов, и они доступны лишь крупнейшим облачным гиперскелерам. В планах компании — создание кластеров на 144 и 576 ускорителей, которые предложат совершенно иной уровень производительности для обучения ИИ-моделей.
Для обучения ИИ почти никогда не хватит одного GPU — будьте готовы собирать полноценный GPU-сервер на 8 ускорителей.
CPU
Процессор (CPU) — для серверов обучения требуется процессор с максимальным количеством ядер и поддержкой большого количества линий PCIe (обычно AMD EPYC 4-го/5-го поколения или Intel Xeon 6-го поколения). CPU отвечает за подготовку данных (data loading), управление кластером и координацию — по сути, он выступает только в роли хоста для ввода-вывода. Важно наличие достаточного количества линий PCIe 5.0 для подключения GPU и быстрых сетевых карт.
Мощный серверный процессор AMD EPYC 9684X — отличное решение для вашего сервера обучения ИИ.
RAM
Оперативная память (RAM) — объем оперативной памяти в сервере обучения должен быть достаточным для хранения датасетов и промежуточных состояний. Рекомендуется соотношение 1:2 или 1:4 от суммарной видеопамяти (например, для 8×A100 80 ГБ (640 ГБ VRAM) нужно не менее 256-512 ГБ ОЗУ). В некоторых случаях (например, при обучении с большим контекстом) модель может частично выгружаться в RAM, поэтому обзавестись запасом будет не лишним.
Для ИИ-сервера нужно очень много оперативки, поэтому подобные системы в текущем кризисном состоянии рынка — очень дорогое удовольствие.
SSD
Накопители — обучение требует сверхбыстрого доступа к данным. Используются NVMe-массивы с RAID и пропускной способностью в десятки гигабайт в секунду. Медленное хранилище приводит к простою GPU в ожидании данных, что кратно увеличивает время на обучение ИИ-модели.
Выводы
Прежде чем вываливать солидную котлету за ИИ-сервер, определитесь, для каких задач вы его будете использовать, ведь требования для сервера инференса и для сервера обучения кардинально отличаются. Если вы хотите просто запускать готовые модели — просто берите карты с большим объемом памяти (от 32 ГБ) и развертывайте легкие квантизированные модели. Если вы хотите обучать собственные модели — приготовьте внушительную сумму на профессиональные GPU с HBM, NVLink и InfiniBand. И помните, что ИИ-индустрия развивается со скоростью света, и та сборка, которая еще вчера была актуальна, сегодня может начать тянуть только слабые, устаревшие нейронки, несравнимые с современными open-source решениями. Но если вы хотите собрать действительно мощный ИИ-сервер для обучения и инференса, который еще долго будет радовать вас своей производительностью и поддержкой флагманских нейронок, обращайтесь в компанию ServerFlow. Наши специалисты подберут оптимальную конфигурацию в зависимости от ваших задач и требований, помогут с установкой, настройкой всего сопутствующего софта и проведут вас за руку от покупки до запуска вашей ИИ-котлеты.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.