Top.Mail.Ru
Тестируем Tesla P40 в LM Studio: нейросети и LLM на Windows | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Тестируем Tesla P40 в LM Studio: нейросети и LLM на Windows

~ 16 мин
2227
Простой
Статьи
Тестируем Tesla P40 в LM Studio: нейросети и LLM на Windows

Введение: знакомство с Tesla P40

Tesla P40 – это решение, рождённое в эпоху, когда глубокое обучение только начинало робко выходить за пределы экспериментального применения. Разработанная компанией NVIDIA на архитектуре Pascal, эта карта предназначена для центров обработки данных и серверных стоек. У неё нет видеовыходов, ведь главное предназначение Tesla P40 – не визуализация, а вычисления.

Для своего времени она демонстрировала довольно впечатляющие характеристики: 24 ГБ памяти GDDR5 с 384-битной шиной и пропускной способностью около 346 ГБ/с, производительность до 12 терафлопс в режиме FP32 и (очень) ограниченную поддержку вычислений FP16. Отдельного упоминания заслуживает наличие ускоренных целочисленных операций форматов INT16 и INT8, которые делают карту применимой в задачах инференса и аналитики. А энергопотребление на уровне 250 Вт делает её относительно эффективной при такой ёмкости памяти.

Характеристики Tesla P40 в GPU-Z
Вот такие незамысловатые на сегодняшний день характеристики имеет Tesla P40. Хотя объём памяти поражает даже сейчас, в своём поколении (Pascal) подобный объём не был доступен ни на одной другой потребительской видеокарте, даже GTX Titan X имел максимум 12 ГБ.

Интересно, что в серверах Tesla P40 обладает пассивным охлаждением, поскольку предназначена для установки в кластеры и сервера, но энтузиасты нередко заменяют его на кастомную систему с активной турбиной, чтобы использовать карту в обычных рабочих станциях.

Самое крупное преимущество Tesla P40 – именно объём видеопамяти. 24 ГБ должны позволить ей без проблем размещать довольно крупные языковые модели, сложные нейросети или выполнять задачи с длинным контекстом, не опасаясь ошибок Out of Memory. Даже при умеренной вычислительной мощности карта может оказаться ценным инструментом для тех, кто работает с большими данными и нуждается в стабильной памяти без компромиссов.

В этом обзоре мы покажем и опишем опыт взаимодействия с P40 в современных реалиях на Windows-системе, и ответим на вопрос: Годится ли ещё на что-то уже не молодой ускоритель от Nvidia, и стоит ли обратить на него своё внимание сегодня?

Внедрение в систему и базовые настройки

После установки карты в систему, накатываем последние доступные от Nvidia драйвера и проверяем корректность их установки.

Версия драйверов и CUDA на которых тестировалась Tesla P40
Несмотря на свой откровенно престарелый возраст P40 продолжает получать обновления и поддержку со стороны NVIDIA. Поддержка продлится до июня 2026 года согласно официальной документации NVIDIA.
Для работы P40 нужен 8-контактный разъём питания формата EPS и минимальный блок питания на 800W, особенно если вы используете отдельную видеокарту для вывода изображения.
Обратите внимание, что видеокарта получила свежую версию CUDA и самые актуальные драйвера на момент осени 2025 года. Забегая вперёд, можем сразу поведать о том, что никаких ошибок, проблем и конфликтов именно с драйверами от Tesla P40 не возникало.

Единственное чем действительно стоит обеспокоиться – дополнительный видеоускоритель для вывода изображения на монитор. Как мы обмолвились ранее, P40 лишена видеовыходов, поэтому идеальным выходом будет процессор со встроенным видеоядром.

Если такового не имеется, можно внедрить в систему вторую карту через полноценный PCI Express. При отсутствии второго подобного разъёма на материнской плате его можно заменить райзером, главное разместить Теслу в полноценный PCI Express X16, чтобы не потерять в производительности.

Печальный недостаток кроется в том, что если вы пожелаете установить вторую видеокарту от Nvidia – она должна быть того же поколения (Pascal) или моложе. Поскольку установить можно только один драйвер старшего видеоускорителя. К примеру, если вы установите в пару видеокарту на архитектуре уже лишившейся поддержки со стороны Nvidia, таких как Maxwell или Kepler то поставить вы сможете только устаревший драйвер, который поддерживает обе видеокарты установленных в систему. 

Благо на ускорителях от AMD такой проблемы не наблюдается и драйвера успешно избегают конфликта, мирно разбредаясь по своим директориям.

После первичной настройки и установки необходимого софта можно приступать к тестированию. Но сначала давайте проясним некоторые детали.

Почему LM Studio?

Tesla P40 и LM Studio

Все дальнейшие тесты будут проведены в LM Studio. Почему выбор пал на него? Потому что это один из самых популярных GUI для LLM-инференса: он прост, удобен и понятен даже для новичков. И именно здесь P40 расположится в привычной среде, поскольку  LM Studio ориентирован в большей степени на запуск моделей малого и среднего размера, для которых и предназначена Tesla P40.

Тест моделей и оценка “юзабельности”

Тест моделей проводился на одинаковой, “стандартной” длине контекста в 4096 токенов. В качестве испытуемых был взят набор из самых популярных и востребованных нейросетевых моделей в разных форматах квантования. По итогу тестов мы заполучили следующие результаты:
# Модель Квантизация Скорость До первого токена Длина контекста Примечания
1 deepseek-r1-0528-qwen3-8b Q4_K_M 31.13 т/сек 1.89 сек 4096 Даёт короткие, но верные ответы
2 Meta-Llama-3.1-8B-Instruct* Q4_K_M 31.82 т/сек 2.90 сек 4096 Немногословна, но даёт только верные ответы
3 DeepSeek-R1-Distill-Llama-8B* Q4_K_S 29.42 т/сек 4.25 сек 4096 Путается в языках, в одном предложении может переключиться три раза: с русского на английский, а с английского на китайский и обратно
4 Llama-2-7B-Chat* Q4_K_S 34.16 т/сек Быстро 2.82 сек 4096 Отлично ведёт диалог и грамотно поддерживает беседу с пользователем, даёт правильные ответы
5 Mistral-7B-Instruct-v0.3 Q5_K_M 28.26 т/сек 3.96 сек 4096 Самая среднестатистическая из представленных, ничем не выделяется
6 Llama-3.2-8X3B-MOE-Instruct-18.4B* Q5_K_M 37.16 т/сек Быстро 3.50 сек 4096 Стремительно генерирует ответы, но изредка допускает ошибки
7 Qwen3-4B-Thinking-2507 Q6_K 30.43 т/сек 2.17 сек 4096 Качественно рассуждает, даёт исчерпывающие ответы
8 gemma-3n-E4B-it-text Q6_K 29.31 т/сек 2.54 сек 4096 Иногда запинается и коверкает предложения
9 Meta-Llama-3-8B-Instruct-bf16* Q6_K 26.20 т/сек 0.8 сек Рекорд 4096 Отвечает неправильно, зачастую не по теме, показывает рекордное время до первого токена
10 Meta-Llama-3-8B-Instruct-bf16* Q8_0 26.05 т/сек 1.17 сек 4096 Отвечает разумнее, чуть медленнее своего собрата на Q6_K
11 Qwen3-4B-Thinking-2507 Q8_0 32.93 т/сек 1.29 сек 4096 Пожалуй, самая разумная и шустрая модель
12 LLaMA-7b-AWQ* AWQ 40.63 т/сек Рекорд 0.30 сек Быстро 4096 Очень короткий, не содержательный ответ
13 Qwen3-4B-Instruct-2507-F16 BF16 21.07 т/сек 4.21 сек 4096 Даёт очень качественные ответы, но как и любая крупная модель работает медленнее
14 Meta-Llama-3-8B-Instruct-bf16* BF16 15.31 т/сек Медленно 1.47 сек 4096 Качественные ответы, но работает довольно неповоротливо и медленно
Все модели протестированы в одинаковых условиях с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). "До первого токена" показывает время ответа системы от начала запроса.
Помимо основной информации мы также оставили краткий отзыв о каждой модели. Надо признать не все из них показали себя хорошо, особенно на русском языке. Но пожалуй единственной моделью которая не справилась даже с англоязычным запросом – был DeepSeek-R1-Distill-Llama-8B*. Он не смог выдавить результат даже на указанном в промпте английском языке и всё время норовил вещать на родном китайском.

Героиня обзора, напротив, показала себя с лучшей стороны: успешно подружившись с каждой моделью и показав неожиданно приятные результаты по скорости генерации токенов. По крайней мере на длине контекста в 4096 токенов. Но что если увеличить длину контекста?

Где же “отсечка”?

Если удариться во все тяжкие и выкрутить контекст на тех моделях которые позволяют выбрать значительно большую длину контекста чем установлено изначально: они не выпадут в ошибку (пока не упруться в VRAM, разумеется) и продолжат функционирование, у моделей просто упадёт генерация токенов в секунду до унизительно низких значений (1,89 т/сек. минимально наблюдаемое нами), а также сильно увеличится время обработки запроса.

Рабочая длина контекста, при которой скорость генерации более-менее комфортна, если вы готовы подождать и не гонитесь за мгновенными ответами: 10-15к токенов (на моделях до 12 млрд. параметров с квантованием не выше Q6, либо до 8 млрд. параметров, но уже с любым квантованием)

Фактический же предел настигает P40 на 90к токенов, они просто не помещаются в видеопамять. Но надобно отметить что плохо видеокарте становится ещё на 70 тысячах параметрах, она хоть и не останавливает генерацию, но работает мучительно медленно, нагреваясь и жужжа турбинкой. Давайте выясним каких температур достигает P40 под такой непосильной для неё нагрузкой.

Температуры

Tesla P40 изначально проектировалась для серверных стоек, поэтому штатный пассивный радиатор не справляется с отводом тепла в обычном корпусе. Именно поэтому для использования в обычных системах возникает необходимость установить активное кастомное охлаждение.

Кастомная система охлаждения для NVIDIA Tesla P40

В нашем случае был использован турбинный вентилятор мощностью 3,24 W. Несмотря на скромную мощность этого решения, его вполне хватило для охлаждения Теслы. Что свидетельствует о том что P40 однозначно не является “горячей” видеокартой.

Температуры и частоты Tesla P40
Минимальные, средние и пиковые температуры Tesla P40.

В режиме простоя температура GPU держится на уровне 38-39°C, при средней нагрузке прогревается до 54-55°C, потребляя около 100 Вт. При полной загрузке температура GPU поднимается до 84-85°C, Hot Spot достигает 94-95°C, а пиковое энергопотребление достигает порядка 227 Вт.

На частоты памяти и самого чипа тоже не пожаловаться: Графический процессор твёрдо удерживает частоту 1531 MHz под серьёзной нагрузкой. Его примеру следует и память, которая также непоколебимо живет на 1807.7 MHz, но уже во всех режимах работы. 

P40 держится очень достойно, показывая себя с хорошей стороны даже по современным лекалам. Давайте же сформируем вывод о этом противоречивом ускорителе.

Какой же итог?

Tesla P40 в материнской плате

Тесла P40 всё ещё достигает приемлемых результатов в локальном инференсе. Да, пускай 24 гигабайта видеопамяти при её производительности кажутся избыточными, но они даруют пользователю свободу выбора любых популярных моделей в LM Studio и ollama на практически любое разумное количество параметров и с широким выбором длины контекста. Поэтому если вы готовы мириться с неспешностью P40 в крупных языковых моделях то она станет отличным выбором, особенно в качестве первой видеокарты для LLM моделей, и отворит перед вами двери в мир локальных нейросетей.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена **Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Автор: Serverflow Serverflow
Поделиться

Комментарии 1

Написать комментарий
Alex
Здравствуйте, подписан на ваш канал на ютубе. Так получилось, что куда ветер дует, я понял еще в 2023(в локальный запуск LLM) когда был слив на 4chan'е первой ****, и в том же году я купил в Китае это чудо - Tesla P40. Но вот проблемка, она приехала ко мне с протёкшими термо-прокладками. :( Но так-как я и сам IT-шник и работаю в Германии уже в этой сфере 14 с половиной лет, в основном со списанным индустриальным, то постоянно занят, и не было до сегодняшнего момента заняться этим вопросом в плотную. Проблемка в общем то вроде как и простая, но на просторах интернета, я не нашел толком какие конкретно термо-прокладки нужны по толщине... :( Не подскажете пожалуйста какие прокладки брать и от какого производителя лучше именно для этого ускорителя? Спасибо заранее!
Serverflow
Здравствуйте! Можете оставить заявку на консультацию у нас на сайте, в рабочее время быстро ответим :)
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)