Наверняка каждый кто задумывался о сборке своего GPU-сервера, хотя бы единожды прикидывал: что если собрать сервер на базе множества относительно дешевых и возрастных видеокарт? Удастся ли сэкономить? Будет ли производительность приемлемой для современных AI задач? Возникнут ли трудности с программным обеспечением и драйверами?
В этом материале мы испытаем целых 8 графических ускорителей Tesla P100 на базе GPU сервера в современных LLM.
Характеристики сервера
Материнская плата: Supermicro X10DRG-O+-CPU.
Чипсет: Intel C612.
Форм-фактор платформы: 4U GPU-сервер.
Процессоры: 2 × Intel Xeon E5-2687W v4.
Ядра, потоки: 24 ядра, 48 потоков суммарно.
Частота CPU: 3.00 GHz базовая, Турбобуст до 3.50 GHz.
Кэш L3: 30 MB на процессор, 60 MB суммарно.
ОЗУ: 128 GB DDR4 ECC.
Видеокарты: 8 × NVIDIA Tesla P100 PCIe 16GB.
Суммарная VRAM: 128 GB.
ОС: Ubuntu 24.04.4 LTS.
Отдельно стоит упомянуть про подключение видеокарт. В этом сервере 8 видеокарт подключены не напрямую к процессорам по одной, а через специальные PCIe-коммутаторы. Схема устроена так: в системе два процессора, и каждый обслуживает свои 4 GPU; внутри этой группы из четырёх карт они дополнительно разбиты на две пары, где одна PCIe-ветка от процессора через коммутатор подключает сразу две видеокарты.
Почему так сделали? Потому что у процессоров не хватает прямых отдельных линий, чтобы честно напрямую подключить 8 видеокарт по x16 линий PCIe на каждую. Поэтому в сервере стоят специальные PCIe-коммутаторы, которые “раздают” линии на несколько GPU. Такая топология имеет свои плюсы и минусы.
Огромный плюс заключается в поддержке функции Peer-to-Peer (P2P): если двум картам, сидящим на одном чипе PLX, нужно обменяться данными, они делают это напрямую на полной скорости PCIe 3.0 x16 (~15.7 ГБ/с), без промежуточного копирования через оперативную память и вообще не загружая шину процессора.
Минус – это эффект “узкого горлышка” при обращении к системе. Если обе видеокарты на коммутаторе одновременно попытаются считать данные из системной оперативной памяти или отправить данные на видеокарты другого процессора, они будут вынуждены делить пропускную способность единственного канала x16 к CPU пополам.
Для масштабного обучения нейросетей такая топология стала бы серьезным ограничителем. Но для нашей задачи – LLM-инференса, это почти не играет роли. После того как веса гигантской модели один раз загружены в суммарные 128 ГБ видеопамяти, между картами и процессором гоняются лишь крошечные объемы данных (токены), для которых пропускной способности мультиплексированной шины PCIe 3.0 хватает с огромным запасом.
Подробнее об этом мы поговорили в другой нашей статье. А теперь давайте перейдём к тестам.
Тест восьми NVIDIA Tesla P100 в популярных LLM
Производительность и работоспособность этой вереницы ускорителей мы рассмотрим при участии нескольких популярных ИИ-движков. Все модели будут тестироваться в равных условиях, с одинаковой длинной контекста.
llama.cpp
Начнём с llama.cpp. Это пожалуй самый легкий старт для работы с несколькими видеокартами. Ведь он умеет гибко выносить часть слоёв на каждый GPU самостоятельно.
Однако и слабое место llama.cpp там же – масштабирование на множество GPU: его архитектура не рассчитана на максимально эффективную работу на большом числе GPU, и в этом он уступает движкам вроде vLLM. Поэтому не смотря на его умение параллелить нагрузку, делает он это не слишком эффективно.
Тест нейросетевых моделей на сервере
Сводная таблица по моделям, форматам квантизации, скорости генерации, времени до первого токена,
длине контекста и кратким примечаниям по качеству ответов.
Модель
Форматы квантизации
Скорость (токенов в сек.)
До первого токена
Длинна контекста (в токенах)
Примечания
Lfm2 24B A2B
Q4_K_M
69.92
0.2 сек.
8192
Хорошая скорость, но очень скудные и невнятные ответы.
Gemma 4 26B A4B
Q4_K_M
37.82
0.9 сек.
8192
Новая модель от Google, даёт внятные ответы средней длины. Не особо выделяется среди прочих.
gpt-oss-20b
MXFP4
58.77
0.6 сек.
8192
Лучшая нейросетевая модель по соотношению вес / качество, самые подробные и быстрые ответы в своей весовой категории.
Qwen3.5 35B A3B
Q4_K_M
44.55
0.6 сек.
8192
Свежая модель Qwen, вышедшая 24.02.2026. Даёт лучшие и самые подробные ответы. Прекрасно развита логика и отлично строит причино-следственные связи
DeepSeek-R1 Distilled 32B
Q4_K_M
9.97
1.2 сек.
8192
Наихудший результат по скорости. Ответы не выделяются качеством.
Llama 3.3 70B-Instruct
Q4_K_M
4.82
2.1 сек.
8192
Крупная модель, которая даёт очень подробные и внятные ответы в ущерб скорости.
gpt-oss-120b
MXFP4
39.14
0.3 сек.
8192
Лучшие ответы, самая разумная модель из представленных. Сторит осмысленные предложения на любом языке, очень ловко жонглирует словами и понятиями.
Результаты генерации не шибко впечатляют для такого количества видеокарт. Видно что производительность растёт нелинейно. В видеоролике на нашем канале, на примере этого же сервера мы разобрались от какого количества видеокарт будет прок. И как будет меняться производительность при увеличении количества задействованных GPU в сервере.
Несмотря на недогрузку видеокарт, видеопамять задействована практически в равном количестве.
А вот и оговоренный выше недостаток llama.cpp: даже при серьёзной нагрузке отдельная видеокарта редко грузится выше 25%. По крайней мере с одним пользователем. А сколько клиентов одновременно сможет обслужить данный сервер мы рассказали в этом материале.
Прочие движки: vLLM, SGLang и ExLlamaV2
vLLM уже не так снисходителен к возрастным видеокартам как llama.cpp. Поскольку Tesla P100 не входит в круг официально поддерживаемых vLLM видеокарт. Понадобился пропатченный vLLM, древней версии 0.3.0 под Pascal и пересобранный xformers под cu118. И даже так задействовать более одного ускорителя, а тем более восемь – не удалось. Да и при инференсе даже на одной видеокарте результаты печальны.
На ExLlamaV2 к слову, результат аналогичный: одна карта на нашей конфигурации функционирует, а вот связка из нескольких – уже нет.
SGLang нецелесообразен по иной причине. Главная фишка скорости SGLang – это сверхбыстрая работа с контекстом через FlashInfer и FlashAttention. Эти технологии требуют наличия тензорных ядер, которых в архитектуре Pascal просто не существует (они появились только в следующем поколении – Volta). Без них запуск на SGLang теряет смысл.
Поэтому единственным, именно стабильным и рациональным решением для запуска всех восьми Tesla P100 остаётся llama.cpp. Да, этот движок тоже не обделён недостатками. Но он единственный кто может гарантировать стабильный запуск. Теперь же, давайте подведём итог этого занимательного эксперимента.
Заключение
Сборка GPU-сервера на базе восьми NVIDIA Tesla P100 – это тест на инженерную смелость и смекалку. Архитектура Pascal, отпраздновавшая свой десятый юбилей, уже давно не поддерживается большинством современных экосистем машинного обучения “из коробки”.
Тем не менее, списывать эти карты со счетов рано. Как показало наше тестирование, связка из восьми Tesla P100 и llama.cpp превращает возрастное железо в полноценный инструмент для запуска гигантских нейросетей класса от 70 до 120 миллиардов параметров.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.