Tesla P40 – это решение, рождённое в эпоху, когда глубокое обучение только начинало робко выходить за пределы экспериментального применения. Разработанная компанией NVIDIA на архитектуре Pascal, эта карта предназначена для центров обработки данных и серверных стоек. У неё нет видеовыходов, ведь главное предназначение Tesla P40 – не визуализация, а вычисления.
Для своего времени она демонстрировала довольно впечатляющие характеристики: 24 ГБ памяти GDDR5 с 384-битной шиной и пропускной способностью около 346 ГБ/с, производительность до 12 терафлопс в режиме FP32 и (очень) ограниченную поддержку вычислений FP16. Отдельного упоминания заслуживает наличие ускоренных целочисленных операций форматов INT16 и INT8, которые делают карту применимой в задачах инференса и аналитики. А энергопотребление на уровне 250 Вт делает её относительно эффективной при такой ёмкости памяти.
Вот такие незамысловатые на сегодняшний день характеристики имеет Tesla P40. Хотя объём памяти поражает даже сейчас, в своём поколении (Pascal) подобный объём не был доступен ни на одной другой потребительской видеокарте, даже GTX Titan X имел максимум 12 ГБ.
Интересно, что в серверах Tesla P40 обладает пассивным охлаждением, поскольку предназначена для установки в кластеры и сервера, но энтузиасты нередко заменяют его на кастомную систему с активной турбиной, чтобы использовать карту в обычных рабочих станциях.
Самое крупное преимущество Tesla P40 – именно объём видеопамяти. 24 ГБ должны позволить ей без проблем размещать довольно крупные языковые модели, сложные нейросети или выполнять задачи с длинным контекстом, не опасаясь ошибок Out of Memory. Даже при умеренной вычислительной мощности карта может оказаться ценным инструментом для тех, кто работает с большими данными и нуждается в стабильной памяти без компромиссов.
В этом обзоре мы покажем и опишем опыт взаимодействия с P40 в современных реалиях на Windows-системе, и ответим на вопрос: Годится ли ещё на что-то уже не молодой ускоритель от Nvidia, и стоит ли обратить на него своё внимание сегодня?
Внедрение в систему и базовые настройки
После установки карты в систему, накатываем последние доступные от Nvidia драйвера и проверяем корректность их установки.
Несмотря на свой откровенно престарелый возраст P40 продолжает получать обновления и поддержку со стороны NVIDIA. Поддержка продлится до июня 2026 года согласно официальной документации .
Для работы P40 нужен 8-контактный разъём питания формата EPS и минимальный блок питания на 800W, особенно если вы используете отдельную видеокарту для вывода изображения.
Обратите внимание, что видеокарта получила свежую версию CUDA и самые актуальные драйвера на момент осени 2025 года. Забегая вперёд, можем сразу поведать о том, что никаких ошибок, проблем и конфликтов именно с драйверами от Tesla P40 не возникало.
Единственное чем действительно стоит обеспокоиться – дополнительный видеоускоритель для вывода изображения на монитор. Как мы обмолвились ранее, P40 лишена видеовыходов, поэтому идеальным выходом будет процессор со встроенным видеоядром.
Если такового не имеется, можно внедрить в систему вторую карту через полноценный PCI Express. При отсутствии второго подобного разъёма на материнской плате его можно заменить райзером, главное разместить Теслу в полноценный PCI Express X16, чтобы не потерять в производительности.
Печальный недостаток кроется в том, что если вы пожелаете установить вторую видеокарту от Nvidia – она должна быть того же поколения (Pascal) или моложе. Поскольку установить можно только один драйвер старшего видеоускорителя. К примеру, если вы установите в пару видеокарту на архитектуре уже лишившейся поддержки со стороны Nvidia, таких как Maxwell или Kepler то поставить вы сможете только устаревший драйвер, который поддерживает обе видеокарты установленных в систему.
Благо на ускорителях от AMD такой проблемы не наблюдается и драйвера успешно избегают конфликта, мирно разбредаясь по своим директориям.
После первичной настройки и установки необходимого софта можно приступать к тестированию. Но сначала давайте проясним некоторые детали.
Почему LM Studio?
Все дальнейшие тесты будут проведены в LM Studio. Почему выбор пал на него? Потому что это один из самых популярных GUI для LLM-инференса: он прост, удобен и понятен даже для новичков. И именно здесь P40 расположится в привычной среде, поскольку LM Studio ориентирован в большей степени на запуск моделей малого и среднего размера, для которых и предназначена Tesla P40.
Тест моделей и оценка “юзабельности”
Тест моделей проводился на одинаковой, “стандартной” длине контекста в 4096 токенов. В качестве испытуемых был взят набор из самых популярных и востребованных нейросетевых моделей в разных форматах квантования. По итогу тестов мы заполучили следующие результаты:
#
Модель
Квантизация
Скорость
До первого токена
Длина контекста
Примечания
1
deepseek-r1-0528-qwen3-8b
Q4_K_M
31.13 т/сек
1.89 сек
4096
Даёт короткие, но верные ответы
2
Meta-Llama-3.1-8B-Instruct*
Q4_K_M
31.82 т/сек
2.90 сек
4096
Немногословна, но даёт только верные ответы
3
DeepSeek-R1-Distill-Llama-8B*
Q4_K_S
29.42 т/сек
4.25 сек
4096
Путается в языках, в одном предложении может переключиться три раза: с русского на английский, а с английского на китайский и обратно
4
Llama-2-7B-Chat*
Q4_K_S
34.16 т/сек Быстро
2.82 сек
4096
Отлично ведёт диалог и грамотно поддерживает беседу с пользователем, даёт правильные ответы
5
Mistral-7B-Instruct-v0.3
Q5_K_M
28.26 т/сек
3.96 сек
4096
Самая среднестатистическая из представленных, ничем не выделяется
6
Llama-3.2-8X3B-MOE-Instruct-18.4B*
Q5_K_M
37.16 т/сек Быстро
3.50 сек
4096
Стремительно генерирует ответы, но изредка допускает ошибки
7
Qwen3-4B-Thinking-2507
Q6_K
30.43 т/сек
2.17 сек
4096
Качественно рассуждает, даёт исчерпывающие ответы
8
gemma-3n-E4B-it-text
Q6_K
29.31 т/сек
2.54 сек
4096
Иногда запинается и коверкает предложения
9
Meta-Llama-3-8B-Instruct-bf16*
Q6_K
26.20 т/сек
0.8 сек Рекорд
4096
Отвечает неправильно, зачастую не по теме, показывает рекордное время до первого токена
10
Meta-Llama-3-8B-Instruct-bf16*
Q8_0
26.05 т/сек
1.17 сек
4096
Отвечает разумнее, чуть медленнее своего собрата на Q6_K
11
Qwen3-4B-Thinking-2507
Q8_0
32.93 т/сек
1.29 сек
4096
Пожалуй, самая разумная и шустрая модель
12
LLaMA-7b-AWQ*
AWQ
40.63 т/сек Рекорд
0.30 сек Быстро
4096
Очень короткий, не содержательный ответ
13
Qwen3-4B-Instruct-2507-F16
BF16
21.07 т/сек
4.21 сек
4096
Даёт очень качественные ответы, но как и любая крупная модель работает медленнее
14
Meta-Llama-3-8B-Instruct-bf16*
BF16
15.31 т/сек Медленно
1.47 сек
4096
Качественные ответы, но работает довольно неповоротливо и медленно
Все модели протестированы в одинаковых условиях с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). "До первого токена" показывает время ответа системы от начала запроса.
Помимо основной информации мы также оставили краткий отзыв о каждой модели. Надо признать не все из них показали себя хорошо, особенно на русском языке. Но пожалуй единственной моделью которая не справилась даже с англоязычным запросом – был DeepSeek-R1-Distill-Llama-8B*. Он не смог выдавить результат даже на указанном в промпте английском языке и всё время норовил вещать на родном китайском.
Героиня обзора, напротив, показала себя с лучшей стороны: успешно подружившись с каждой моделью и показав неожиданно приятные результаты по скорости генерации токенов. По крайней мере на длине контекста в 4096 токенов. Но что если увеличить длину контекста?
Где же “отсечка”?
Если удариться во все тяжкие и выкрутить контекст на тех моделях которые позволяют выбрать значительно большую длину контекста чем установлено изначально: они не выпадут в ошибку (пока не упруться в VRAM, разумеется) и продолжат функционирование, у моделей просто упадёт генерация токенов в секунду до унизительно низких значений (1,89 т/сек. минимально наблюдаемое нами), а также сильно увеличится время обработки запроса.
Рабочая длина контекста, при которой скорость генерации более-менее комфортна, если вы готовы подождать и не гонитесь за мгновенными ответами: 10-15к токенов (на моделях до 12 млрд. параметров с квантованием не выше Q6, либо до 8 млрд. параметров, но уже с любым квантованием)
Фактический же предел настигает P40 на 90к токенов, они просто не помещаются в видеопамять. Но надобно отметить что плохо видеокарте становится ещё на 70 тысячах параметрах, она хоть и не останавливает генерацию, но работает мучительно медленно, нагреваясь и жужжа турбинкой. Давайте выясним каких температур достигает P40 под такой непосильной для неё нагрузкой.
Температуры
Tesla P40 изначально проектировалась для серверных стоек, поэтому штатный пассивный радиатор не справляется с отводом тепла в обычном корпусе. Именно поэтому для использования в обычных системах возникает необходимость установить активное кастомное охлаждение.
В нашем случае был использован турбинный вентилятор мощностью 3,24 W. Несмотря на скромную мощность этого решения, его вполне хватило для охлаждения Теслы. Что свидетельствует о том что P40 однозначно не является “горячей” видеокартой.
Минимальные, средние и пиковые температуры Tesla P40.
В режиме простоя температура GPU держится на уровне 38-39°C, при средней нагрузке прогревается до 54-55°C, потребляя около 100 Вт. При полной загрузке температура GPU поднимается до 84-85°C, Hot Spot достигает 94-95°C, а пиковое энергопотребление достигает порядка 227 Вт.
На частоты памяти и самого чипа тоже не пожаловаться: Графический процессор твёрдо удерживает частоту 1531 MHz под серьёзной нагрузкой. Его примеру следует и память, которая также непоколебимо живет на 1807.7 MHz, но уже во всех режимах работы.
P40 держится очень достойно, показывая себя с хорошей стороны даже по современным лекалам. Давайте же сформируем вывод о этом противоречивом ускорителе.
Какой же итог?
Тесла P40 всё ещё достигает приемлемых результатов в локальном инференсе. Да, пускай 24 гигабайта видеопамяти при её производительности кажутся избыточными, но они даруют пользователю свободу выбора любых популярных моделей в LM Studio и ollama на практически любое разумное количество параметров и с широким выбором длины контекста. Поэтому если вы готовы мириться с неспешностью P40 в крупных языковых моделях то она станет отличным выбором, особенно в качестве первой видеокарты для LLM моделей, и отворит перед вами двери в мир локальных нейросетей.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Здравствуйте, подписан на ваш канал на ютубе. Так получилось, что куда ветер дует, я понял еще в 2023(в локальный запуск LLM) когда был слив на 4chan'е первой ****, и в том же году я купил в Китае это чудо - Tesla P40. Но вот проблемка, она приехала ко мне с протёкшими термо-прокладками. :( Но так-как я и сам IT-шник и работаю в Германии уже в этой сфере 14 с половиной лет, в основном со списанным индустриальным, то постоянно занят, и не было до сегодняшнего момента заняться этим вопросом в плотную.
Проблемка в общем то вроде как и простая, но на просторах интернета, я не нашел толком какие конкретно термо-прокладки нужны по толщине... :(
Не подскажете пожалуйста какие прокладки брать и от какого производителя лучше именно для этого ускорителя?
Спасибо заранее!
Serverflow
Здравствуйте! Можете оставить заявку на консультацию у нас на сайте, в рабочее время быстро ответим :)
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.