Top.Mail.Ru
Tesla P100 в современных задачах LLM инференса | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Уточнение цен временно недоступно. Китайский Новый год. Ответы по товарам «Под заказ» после 25 числа.
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Tesla P100 в современных задачах LLM инференса

~ 15 мин
1396
Простой
Статьи
Tesla P100 в современных задачах LLM инференса

Введение: ознакомление с NVIDIA Tesla P100

Совсем недавно мы разглядывали NVIDIA Tesla P40 и оценивали её возможности в текущих реалиях. Сегодня же перед нами предстала “старшая сестра” этого неоднозначного ускорителя. Давайте разберёмся в чем между ними различия и на сколько старшая модель опережает (если опережает) Tesla P40.

NVIDIA Tesla P100 увидела свет в тот же отрезок времени что и Tesla P40, на базе той же архитектуры Pascal, но их позиционирование серьёзно разнилось. Если P40 продвигалась сугубо как инструмент инференса нейросетей, то старший ускоритель был более многофункционален и мог использоваться как для обучения, и инференса, так и для работы с низкоразрядными форматами.

P100 преподносилась NVIDIA как старший многофункциональный суперкомпьютерный ускоритель в линейке Тесел на поколении Pascal. Именно поэтому её снабдили полным арсеналом технологий которым владела компания в период выпуска этого поколения.

И именно благодаря тому что NVIDIA снабдила её полноценной, а не урезанной поддержкой (как на P40) формата FP16, её производительность в нём составляет аж 21.2 TFLOPS. Это вдвое больше, чем её же производительность в формате FP32, и в колоссальных 115 раз быстрее чем её младшая сестра в том же формате FP16. Однако это не единственный козырь в рукаве старшего ускорителя.

Характеристики NVIDIA Tesla P100

Второе явное достоинство P100 – неимоверно быстрая видеопамять HBM2. Помимо впечатляющей шины в 4096 бит, она также обладает и невероятной пропускной способностью 732 Гб/с. Именно высокоскоростная память является краеугольным преимуществом этого видеоускорителя.

NVIDIA Tesla P100 в GPU-Z
В NVIDIA Tesla P100 больше всего поражает пропускная способность HBM2 памяти, которую NVIDIA применила впервые именно в этой видеокарте. 

Но HBM2 несёт в себе и недостатки: Стеки многослойной памяти расположены по периметру GPU, и их физическое расположение ограничено габаритами кристалла. Поэтому NVIDIA Tesla P100 снабдили всего 16 гигабайтами видеопамяти, в то время как младшую P40 целыми 24 Гб.

Сравнительная таблица характеристик NVIDIA Tesla P40 и NVIDIA Tesla P100
Сравнительная таблица характеристик NVIDIA Tesla P40 и NVIDIA Tesla P100. Что удивительно, P40 имеет больше ядер: 3840 CUDA-ядер против 3584 у Tesla P100.

Высочайшая пропускная способность памяти критична для инференса: чем быстрее GPU может загружать весовые коэффициенты модели, тем выше скорость генерации токенов. Даже при умеренной вычислительной мощности P100 наверняка сможет показать приемлемые результаты благодаря именно этой архитектурной особенности. Но давайте не будем гадать и наконец установим карту в систему.

Установка NVIDIA Tesla P100 в систему и настройка в Windows

Tesla P100 в корпусе
NVIDIA Tesla P100 занимает два слота на материнской плате, а длинна её корпуса без турбины составляет 267 мм.

Для функционирования P100 необходим 8-контактный разъём питания формата EPS и блок питания от 650W, а если вы используете отдельную видеокарту для вывода изображения то от 800W.

После установки накатываем свежевышедшие драйвера и убеждаемся в их корректной установке.

Версия драйверов и CUDA на которой проводилось тестирование.
Выход обновлений прекратится в июле 2026 года, согласно плану жизненного цикла видеокарт на архитектуре Pascal от NVIDIA.

Актуальные обновления на P100 по прежнему выходят, это означает что Тесла всё ещё актуальный продукт, с полноценной софтовой поддержкой производителя. Благодаря свежим драйверам мы не столкнулись с проблемами в работе LM Studio и благополучно провели все тесты. Давайте же взглянем на результаты.

Тест NVIDIA Tesla P100 в LM Studio

Большая часть списка протестированных моделей аналогична списку из тестов NVIDIA Tesla P40, для более наглядного сопоставления двух ускорителей. Однако подборку разбавили и некоторые новые модели, например gpt-oss от OpenAI на 20 миллиардов параметров. Она показала себя с наилучшей стороны, полностью раскрыв потенциал P100 с точки зрения видеокарты для инференса.

# Модель Квантизация Скорость До первого токена Длина контекста Примечания
1 deepseek-r1-0528-qwen3-8b Q4_K_M 36.45 т/сек 1.50 сек 4096 Даёт короткие, но верные ответы
2 Meta-Llama-3.1-8B-Instruct* Q4_K_M 38.34 т/сек 1.50 сек 4096 Немногословна, но даёт только верные ответы
3 OpenAI's gpt-oss 20B Q4_K_M 63.02 т/сек Лучшая 0.17 сек Рекорд 4096 Лучшая нейросетевая модель, самые подробные и быстрые ответы
4 DeepSeek-R1-Distill-Llama-8B* Q4_K_S 40.35 т/сек 0.25 сек 4096 Путается в языках, в одном предложении может переключиться три раза: с русского на английский, а с английского на китайский и обратно
5 Llama-2-7B-Chat* Q4_K_S 46.23 т/сек Быстро 0.22 сек 4096 Отлично ведёт диалог и грамотно поддерживает беседу с пользователем, даёт правильные ответы
6 Mistral-7B-Instruct-v0.3 Q5_K_M 38.95 т/сек 0.20 сек 4096 Самая среднестатистическая из представленных, ничем не выделяется
7 Llama-3.2-8X3B-MOE-Instruct-18.4B* Q5_K_M 22.63 т/сек 2.18 сек 4096 Стремительно генерирует ответы, но изредка допускает ошибки
8 Qwen3-4B-Thinking-2507 Q6_K 44.90 т/сек Быстро 0.15 сек 4096 Качественно рассуждает, даёт исчерпывающие ответы
9 gemma-3n-E4B-it-text Q6_K 32.06 т/сек 0.17 сек 4096 Иногда запинается и коверкает предложения
10 Meta-Llama-3-8B-Instruct-bf16* Q6_K 28.86 т/сек 0.19 сек 4096 Отвечает неправильно, зачастую не по теме, показывает рекордное время до первого токена
11 Meta-Llama-3-8B-Instruct-bf16* Q8_0 36.57 т/сек 1.47 сек 4096 Отвечает разумнее, чуть медленнее своего собрата на Q6_K
12 Qwen3-4B-Thinking-2507 Q8_0 56.63 т/сек Быстро 0.17 сек 4096 Пожалуй, одна из самых разумных и шустрых моделей
13 LLaMA-7b-AWQ* AWQ 35.56 т/сек 0.21 сек 4096 Очень короткий, не содержательный ответ
14 Qwen3-4B-Instruct-2507-F16 BF16 45.34 т/сек Быстро 0.15 сек 4096 Даёт очень качественные ответы, но как и любая крупная модель работает медленнее
15 Meta-Llama-3-8B-Instruct-bf16* BF16 4.91 т/сек Медленно 2.19 сек 4096 Качественные ответы, но работает довольно неповоротливо и медленно
Примечание: Все модели протестированы на Tesla P100 в одинаковых условиях с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). "До первого токена" показывает время ответа системы от начала запроса.
В целом, как можно наблюдать из результатов, NVIDIA Tesla P100 показывает весьма подобающую для своего возраста производительность. Её показатели примерно на треть лучше чем у протестированной ранее P40. Но, в отличии от оснащённой большим колличеством памяти младшей сестры – P100 не может кратно увеличить длину контекста. Если P40 сдавалась на 90к токенах, а плохо ей становилось на 70. То P100 заикается уже на 30 тысячах, а больше 50 переварить физически уже не может.

Из заметных позитивных отличий можно приметить время до первого токена. Оно кратно меньше чем у P40 за счёт большей пропускной способности памяти и лучшей оптимизации для параллельных вычислений. 

Поэтому если не преступать разумные границы, и не выкручивать длину контекста “до хруста”, то NVIDIA Tesla P100 способна похвастать увесистым преимуществом в производительности на умеренных температурах.

Температуры NVIDIA Tesla P100

Использование NVIDIA Tesla P100 предполагалось в серверных стойках, поэтому штатный пассивный радиатор не сумеет обеспечить эффективного отвода тепла в обычном корпусе. Именно поэтому в обычных системах требуется установка активного кастомного охлаждения.

NVIDIA Tesla P100 с установленным турбинным охлаждением
NVIDIA Tesla P100 хватает даже незамысловатого охлаждения

В нашем случае в пассивную систему охлаждения был интегрирован турбинный вентилятор мощностью 3,24 W. Он вполне достойно справился с не очень впечатляющим тепловыделением Теслы.

В режиме простоя GPU держит температуру на уровне примерно 41 градуса Цельсия. Hot Spot при этом находится в районе 61 градуса. Частота GPU стабильна на 1050 МГц, память работает на 715,5 МГц. Потребление электроэнергии минимально и составляет примерно 34,4 Вт на уровне платы.

При средней нагрузке температура GPU поднимается до 60,3 градуса Цельсия, Hot Spot достигает 80,3 градуса. Частота вырастает до 1212,7 МГц, память остаётся на 715,5 МГц. Потребление возрастает до 50,1 Вт для GPU и 90,5 Вт в целом на плате.

При полной загрузке картина меняется более заметно. Температура GPU достигает 80,2 градуса Цельсия, a Hot Spot взбирается до неприятных 100,2 градуса. Частота GPU держится на уровне 1328,5 МГц, память всё также располагается на 715,5 МГц. Пиковое энергопотребление кристалла составляет 122,9 Вт, а общее потребление платы достигает 210,4 Вт.

Температуры Tesla P100
Минимальные, средние и максимальные температуры NVIDIA Tesla P100.

Как можно наблюдать, температуры на хот-споте хоть и преодолевали сотню градусов в пиковой нагрузке, но в остальном показатели были вполне приличными. Даже незамысловатое охлаждение способно удерживать температуры ускорителя на приемлемых показателях. После ознакомления с достоинствами и недостатками этого графического ускорителя, настала пора подвести итог.

Вывод о NVIDIA Tesla P100

Tesla P100 и Windows 10
NVIDIA Tesla P100 – бюджетная видеокарта, к которой стоит присмотреться.

NVIDIA Tesla P100 представляет собой интересный компромисс между производительностью и стоимостью для энтузиастов LLM инференса. Её высокоскоростная память HBM2 даёт ей увесистое преимущество перед более старыми видеокартами с обычной GDDR5 памятью.

Однако при выборе этой карты следует понимать её ограничения: скромный объём памяти в 16 ГБ и близкое окончание поддержки драйверов в 2026 году. Однако если вы готовы смириться с этими ограничениями и не нуждаетесь в долгосрочной гарантии совместимости, P100 станет отличной инвестицией для экспериментов с локальными LLM.

NVIDIA Tesla P100 по прежнему остаётся актуальным ускорителем, которым можно пользоваться в современных условиях, пусть и с оговорками.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор: Serverflow Serverflow
Поделиться

Комментарии 1

Написать комментарий
Дмитрий
Не увидел в статье сравнительную таблицу теста моделей, или так и задумано?
Serverflow
Судя по всему, Вы успели посмотреть статью пока она еще была не опубликована, сейчас таблица сравнения уже доступна! Благодарим за вовлеченность :)
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)