Тестируем Tesla P40 в LM Studio: нейросети и LLM на Windows

01.11.2025

~ 16 мин

5800

Простой

Статьи

Введение: знакомство с Tesla P40

Tesla P40 – это решение, рождённое в эпоху, когда глубокое обучение только начинало робко выходить за пределы экспериментального применения. Разработанная компанией NVIDIA на архитектуре Pascal, эта карта предназначена для центров обработки данных и серверных стоек. У неё нет видеовыходов, ведь главное предназначение Tesla P40 – не визуализация, а вычисления.

Для своего времени она демонстрировала довольно впечатляющие характеристики: 24 ГБ памяти GDDR5 с 384-битной шиной и пропускной способностью около 346 ГБ/с, производительность до 12 терафлопс в режиме FP32 и (очень) ограниченную поддержку вычислений FP16. Отдельного упоминания заслуживает наличие ускоренных целочисленных операций форматов INT16 и INT8, которые делают карту применимой в задачах инференса и аналитики. А энергопотребление на уровне 250 Вт делает её относительно эффективной при такой ёмкости памяти.

Вот такие незамысловатые на сегодняшний день характеристики имеет Tesla P40. Хотя объём памяти поражает даже сейчас, в своём поколении (Pascal) подобный объём не был доступен ни на одной другой потребительской видеокарте, даже GTX Titan X имел максимум 12 ГБ.

Интересно, что в серверах Tesla P40 обладает пассивным охлаждением, поскольку предназначена для установки в кластеры и сервера, но энтузиасты нередко заменяют его на кастомную систему с активной турбиной, чтобы использовать карту в обычных рабочих станциях.

Самое крупное преимущество Tesla P40 – именно объём видеопамяти. 24 ГБ должны позволить ей без проблем размещать довольно крупные языковые модели, сложные нейросети или выполнять задачи с длинным контекстом, не опасаясь ошибок Out of Memory. Даже при умеренной вычислительной мощности карта может оказаться ценным инструментом для тех, кто работает с большими данными и нуждается в стабильной памяти без компромиссов.

В этом обзоре мы покажем и опишем опыт взаимодействия с P40 в современных реалиях на Windows-системе, и ответим на вопрос: Годится ли ещё на что-то уже не молодой ускоритель от Nvidia, и стоит ли обратить на него своё внимание сегодня?

Внедрение в систему и базовые настройки

После установки карты в систему, накатываем последние доступные от Nvidia драйвера и проверяем корректность их установки.

Версия драйверов и CUDA на которых тестировалась Tesla P40

Несмотря на свой откровенно престарелый возраст P40 продолжает получать обновления и поддержку со стороны NVIDIA. Поддержка продлится до июня 2026 года согласно официальной документации NVIDIA.

Для работы P40 нужен 8-контактный разъём питания формата EPS и минимальный блок питания на 800W, особенно если вы используете отдельную видеокарту для вывода изображения.

Обратите внимание, что видеокарта получила свежую версию CUDA и самые актуальные драйвера на момент осени 2025 года. Забегая вперёд, можем сразу поведать о том, что никаких ошибок, проблем и конфликтов именно с драйверами от Tesla P40 не возникало.

Единственное чем действительно стоит обеспокоиться – дополнительный видеоускоритель для вывода изображения на монитор. Как мы обмолвились ранее, P40 лишена видеовыходов, поэтому идеальным выходом будет процессор со встроенным видеоядром.

Если такового не имеется, можно внедрить в систему вторую карту через полноценный PCI Express. При отсутствии второго подобного разъёма на материнской плате его можно заменить райзером, главное разместить Теслу в полноценный PCI Express X16, чтобы не потерять в производительности.

Печальный недостаток кроется в том, что если вы пожелаете установить вторую видеокарту от Nvidia – она должна быть того же поколения (Pascal) или моложе. Поскольку установить можно только один драйвер старшего видеоускорителя. К примеру, если вы установите в пару видеокарту на архитектуре уже лишившейся поддержки со стороны Nvidia, таких как Maxwell или Kepler то поставить вы сможете только устаревший драйвер, который поддерживает обе видеокарты установленных в систему.

Благо на ускорителях от AMD такой проблемы не наблюдается и драйвера успешно избегают конфликта, мирно разбредаясь по своим директориям.

После первичной настройки и установки необходимого софта можно приступать к тестированию. Но сначала давайте проясним некоторые детали.

Почему LM Studio?

Все дальнейшие тесты будут проведены в LM Studio. Почему выбор пал на него? Потому что это один из самых популярных GUI для LLM-инференса: он прост, удобен и понятен даже для новичков. И именно здесь P40 расположится в привычной среде, поскольку LM Studio ориентирован в большей степени на запуск моделей малого и среднего размера, для которых и предназначена Tesla P40.

Тест моделей и оценка “юзабельности”

Тест моделей проводился на одинаковой, “стандартной” длине контекста в 4096 токенов. В качестве испытуемых был взят набор из самых популярных и востребованных нейросетевых моделей в разных форматах квантования. По итогу тестов мы заполучили следующие результаты:

#	Модель	Квантизация	Скорость	До первого токена	Длина контекста	Примечания
1	deepseek-r1-0528-qwen3-8b	Q4_K_M	31.13 т/сек	1.89 сек	4096	Даёт короткие, но верные ответы
2	Meta-Llama-3.1-8B-Instruct*	Q4_K_M	31.82 т/сек	2.90 сек	4096	Немногословна, но даёт только верные ответы
3	DeepSeek-R1-Distill-Llama-8B*	Q4_K_S	29.42 т/сек	4.25 сек	4096	Путается в языках, в одном предложении может переключиться три раза: с русского на английский, а с английского на китайский и обратно
4	Llama-2-7B-Chat*	Q4_K_S	34.16 т/сек Быстро	2.82 сек	4096	Отлично ведёт диалог и грамотно поддерживает беседу с пользователем, даёт правильные ответы
5	Mistral-7B-Instruct-v0.3	Q5_K_M	28.26 т/сек	3.96 сек	4096	Самая среднестатистическая из представленных, ничем не выделяется
6	Llama-3.2-8X3B-MOE-Instruct-18.4B*	Q5_K_M	37.16 т/сек Быстро	3.50 сек	4096	Стремительно генерирует ответы, но изредка допускает ошибки
7	Qwen3-4B-Thinking-2507	Q6_K	30.43 т/сек	2.17 сек	4096	Качественно рассуждает, даёт исчерпывающие ответы
8	gemma-3n-E4B-it-text	Q6_K	29.31 т/сек	2.54 сек	4096	Иногда запинается и коверкает предложения
9	Meta-Llama-3-8B-Instruct-bf16*	Q6_K	26.20 т/сек	0.8 сек Рекорд	4096	Отвечает неправильно, зачастую не по теме, показывает рекордное время до первого токена
10	Meta-Llama-3-8B-Instruct-bf16*	Q8_0	26.05 т/сек	1.17 сек	4096	Отвечает разумнее, чуть медленнее своего собрата на Q6_K
11	Qwen3-4B-Thinking-2507	Q8_0	32.93 т/сек	1.29 сек	4096	Пожалуй, самая разумная и шустрая модель
12	LLaMA-7b-AWQ*	AWQ	40.63 т/сек Рекорд	0.30 сек Быстро	4096	Очень короткий, не содержательный ответ
13	Qwen3-4B-Instruct-2507-F16	BF16	21.07 т/сек	4.21 сек	4096	Даёт очень качественные ответы, но как и любая крупная модель работает медленнее
14	Meta-Llama-3-8B-Instruct-bf16*	BF16	15.31 т/сек Медленно	1.47 сек	4096	Качественные ответы, но работает довольно неповоротливо и медленно

Все модели протестированы в одинаковых условиях с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). "До первого токена" показывает время ответа системы от начала запроса.

Помимо основной информации мы также оставили краткий отзыв о каждой модели. Надо признать не все из них показали себя хорошо, особенно на русском языке. Но пожалуй единственной моделью которая не справилась даже с англоязычным запросом – был DeepSeek-R1-Distill-Llama-8B*. Он не смог выдавить результат даже на указанном в промпте английском языке и всё время норовил вещать на родном китайском.

Героиня обзора, напротив, показала себя с лучшей стороны: успешно подружившись с каждой моделью и показав неожиданно приятные результаты по скорости генерации токенов. По крайней мере на длине контекста в 4096 токенов. Но что если увеличить длину контекста?

Где же “отсечка”?

Если удариться во все тяжкие и выкрутить контекст на тех моделях которые позволяют выбрать значительно большую длину контекста чем установлено изначально: они не выпадут в ошибку (пока не упруться в VRAM, разумеется) и продолжат функционирование, у моделей просто упадёт генерация токенов в секунду до унизительно низких значений (1,89 т/сек. минимально наблюдаемое нами), а также сильно увеличится время обработки запроса.

Рабочая длина контекста, при которой скорость генерации более-менее комфортна, если вы готовы подождать и не гонитесь за мгновенными ответами: 10-15к токенов (на моделях до 12 млрд. параметров с квантованием не выше Q6, либо до 8 млрд. параметров, но уже с любым квантованием)

Фактический же предел настигает P40 на 90к токенов, они просто не помещаются в видеопамять. Но надобно отметить что плохо видеокарте становится ещё на 70 тысячах параметрах, она хоть и не останавливает генерацию, но работает мучительно медленно, нагреваясь и жужжа турбинкой. Давайте выясним каких температур достигает P40 под такой непосильной для неё нагрузкой.

Температуры

Tesla P40 изначально проектировалась для серверных стоек, поэтому штатный пассивный радиатор не справляется с отводом тепла в обычном корпусе. Именно поэтому для использования в обычных системах возникает необходимость установить активное кастомное охлаждение.

Кастомная система охлаждения для NVIDIA Tesla P40

В нашем случае был использован турбинный вентилятор мощностью 3,24 W. Несмотря на скромную мощность этого решения, его вполне хватило для охлаждения Теслы. Что свидетельствует о том что P40 однозначно не является “горячей” видеокартой.

Минимальные, средние и пиковые температуры Tesla P40.

В режиме простоя температура GPU держится на уровне 38-39°C, при средней нагрузке прогревается до 54-55°C, потребляя около 100 Вт. При полной загрузке температура GPU поднимается до 84-85°C, Hot Spot достигает 94-95°C, а пиковое энергопотребление достигает порядка 227 Вт.

На частоты памяти и самого чипа тоже не пожаловаться: Графический процессор твёрдо удерживает частоту 1531 MHz под серьёзной нагрузкой. Его примеру следует и память, которая также непоколебимо живет на 1807.7 MHz, но уже во всех режимах работы.

P40 держится очень достойно, показывая себя с хорошей стороны даже по современным лекалам. Давайте же сформируем вывод о этом противоречивом ускорителе.

Какой же итог?

Тесла P40 всё ещё достигает приемлемых результатов в локальном инференсе. Да, пускай 24 гигабайта видеопамяти при её производительности кажутся избыточными, но они даруют пользователю свободу выбора любых популярных моделей в LM Studio и ollama на практически любое разумное количество параметров и с широким выбором длины контекста. Поэтому если вы готовы мириться с неспешностью P40 в крупных языковых моделях то она станет отличным выбором, особенно в качестве первой видеокарты для LLM моделей, и отворит перед вами двери в мир локальных нейросетей.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена **Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow

Комментарии 1

Alex

11.01.2026

Здравствуйте, подписан на ваш канал на ютубе. Так получилось, что куда ветер дует, я понял еще в 2023(в локальный запуск LLM) когда был слив на 4chan'е первой ****, и в том же году я купил в Китае это чудо - Tesla P40. Но вот проблемка, она приехала ко мне с протёкшими термо-прокладками. :( Но так-как я и сам IT-шник и работаю в Германии уже в этой сфере 14 с половиной лет, в основном со списанным индустриальным, то постоянно занят, и не было до сегодняшнего момента заняться этим вопросом в плотную. Проблемка в общем то вроде как и простая, но на просторах интернета, я не нашел толком какие конкретно термо-прокладки нужны по толщине... :( Не подскажете пожалуйста какие прокладки брать и от какого производителя лучше именно для этого ускорителя? Спасибо заранее!

Здравствуйте! Можете оставить заявку на консультацию у нас на сайте, в рабочее время быстро ответим :)