Тестируем восемь NVIDIA Tesla P100 в ComfyUI: генерируем изображения и видео

24.04.2026

~ 4 мин

331

Простой

Статьи

Введение

В нашей прошлой статье мы рассмотрели сервер с восемью Tesla P100 в контексте текстовых нейросетевых моделей. А что насчёт генерации изображений и видеороликов? В этом материале мы поглядим на что способны 8 возрастных видеокарт в ComfyUI и какие проблемы нарисуются в процессе тестирования. Для начала давайте вспомним характеристики сервера.

Характеристики сервера

Материнская плата: Supermicro X10DRG-O+-CPU.
Чипсет: Intel C612.
Форм-фактор платформы: 4U GPU-сервер.
Процессоры: 2 × Intel Xeon E5-2687W v4.
Ядра, потоки: 24 ядра, 48 потоков суммарно.
Частота CPU: 3.00 GHz базовая, Турбобуст до 3.50 GHz.
Кэш L3: 30 MB на процессор, 60 MB суммарно.
ОЗУ: 128 GB DDR4 ECC.
Видеокарты: 8 × NVIDIA Tesla P100 PCIe 16GB.
Суммарная VRAM: 128 GB.
ОС: Ubuntu 24.04.4 LTS.

В этом сервере 8 видеокарт подключены не напрямую к процессорам по одной, а через специальные PCIe-коммутаторы. Устройство схемы таково: в системе имеются два процессора, каждый из которых по факту обслуживает свои 4 GPU; внутри этой группы из четырёх карт они дополнительно разбиты на две пары, где одна PCIe-ветка от процессора через коммутатор подключает сразу две видеокарты.

Такая схема подключения реализована потому что прямых отдельных линий для честного подключения напрямую по x16 PCIe для каждой видеокарты у процессоров не хватает. Поэтому в сервере и стоят PCIe-коммутаторы, которые “раздают” эти линии сразу на несколько видеокарт. Теперь давайте перейдём к тестированию.

Тест восьми Tesla P100 в ComfyUI

К сожалению ускорить обработку одного изображения или объединить видеопамять для загрузки более увесистой модели, как это мы делали с текстовыми нейросетями – не удасться. Поэтому производительность мы рассмотрим с иной точки зрения: мы будем генерировать параллельно 8 изображений (и видеороликов), по одному на каждую видеокарту. Промт будет единым для всех генераций, дабы можно было высчитать среднее время исполнения одного изображения и зафиксировать результат. В тестировании участвуют три модели для генерации изображений и одна для видео.

Тесты моделей в ComfyUI

Сводная таблица по моделям, разрешению, среднему времени генерации и примечаниям.

Модель	Разрешение	Усреднённое время генерации, сек	Примечание
Z-Image Turbo	1024×1024	67.55	Неплохая модель, но имеются проблемы с анатомией.
FLUX 2 4B	1024×1024	195.04	Выдаёт отличные изображения, артефактов нет.
Kandinsky 5.0 Image Lite	1024×1024	689.89	Лучший результат из представленных, понимает промты на русском.
Kandinsky 5.0 Video Lite	768×512	2667.94	Приемлимые видеоролики, точно также понимает промты на русском.

Как можно наблюдать результаты далеко не рекордны. И такая связка в первую очередь полезна в рамках генерации множества изображений или видео за один проход, а не получить одно высококачественное.

По качеству картина складывается таковой: Z‑Image Turbo оказался самым быстрым, но самым неаккуратным по анатомии. FLUX 2 4B дал заметно более чистый и стабильный результат. Kandinsky 5.0 Image Lite оказался самым медленным среди image‑моделей, но зато показал высокое качество и, благодаря стране происхождения – хорошее понимание промтов на русском языке. Видео‑модель Kandinsky 5.0 Video Lite тоже оказалась рабочим вариантом, но по времени это уже откровенно тяжёлый сценарий для Tesla P100.

Проблемы

Главные сложности оказались не в самой генерации, а в настройке окружения. При запуске нескольких локальных процессов пришлось разводить их по разным портам и обходить конфликты базы данных ComfyUI, потому что несколько экземпляров программы настойчиво пытались одновременно использовать один comfyui.db, что приводило к ошибкам.

Подобные проблемы при запуске ComfyUI сразу со множеством ускорителей встречаются нередко, поэтому для конфигураций с несколькими видеокартами обычно приходится отдельно следить за портами, путями к моделям и корректным запуском рабочих процессов. За исключение этого ComfyUI не доставил неприятностей.

Заключение

Связку из восьми Tesla P100 сложно назвать выдающейся по скорости одной генерации, и уж тем более это не способ сложить восемь старых карт в одну современную. Зато у такой машины есть другой понятный плюс: она позволяет относительно дёшево организовать массовую параллельную генерацию изображений и видео, где каждая GPU обслуживает свой workflow и тем самым повышает общую производительность сервера.

Автор:

Serverflow