Запуск локальных LLM и оценка производительности видеокарты RTX 5080

10.03.2025

~ 3 мин

7036

Средний

Новости

Содержание:

Введение
Характеристики видеокарты Nvidia GeForce RTX 5080
Развертывание и сравнение локальных нейросетей на Nvidia RTX 5080

Сравниваем Qwen2.5 14b и DeepSeek R1-14b
Сравнение Gemma 2-27b и Mistral Small 3-24b
Запуск Qwen 2.5-coder-14b

Выводы

Введение

Совсем недавно в руки компании ServerFlow поступила видеокарта Nvidia GeForce RTX 5080 Gaming Trio. Наша команда не могла пройти мимо возможности оценить это передовое графическое решение на архитектуре Blackwell в развертывании передовых нейросетей. В этом кейсе мы рассмотрим эффективность Nvidia GeForce RTX 5080 при инференсе LLM, также опишем опыт использования этого передового ИИ решения!

Упакованная видеокарта Nvidia GeForce RTX 5080 Gaming Trio.

Характеристики видеокарты Nvidia GeForce RTX 5080

Видеокарта Nvidia RTX 5080 построена на базе графического чипа GB203 с архитектурой Blackwell, который изначально позиционировался как решение для сферы искусственного интеллекта. За счет этого, RTX 5080 поддерживает форматы вычислений с пониженной точностью, в частности, FP4 и FP8, что позволяет более эффективно проводить обучение и инференс больших языковых моделей. Даже несмотря на небольшой объем VRAM в 16 ГБ, ввиду чего мы вынуждены тестировать только квантизированные модели ИИ, Nvidia RTX 5080 должна хорошо себя показать при развертывании локальных нейросетей.

Перед тем, как перечислить полный список характеристик Nvidia RTX 5080, стоит уточнить несколько нюансов касательно количества блоков ROP и установленных драйверов. В статье про проблемы RTX 5000 мы рассказывали, что многие пользователи новейшего поколения видеокарт Nvidia жаловались, что им продали бракованные видеокарты с недостаточным количеством блоков ROP, а новые версии драйверов приводят видеокарты в негодность. Нас проблема недостатка ROP, к счастью, обошла стороной и нам поступила полностью исправная модель RTX 5080 со 112 блоками ROP, поэтому производительность и возможности будут оцениваться на полноценном устройстве. Кроме того, мы установили последнюю версию драйверов GeForce Game Ready 572.70 WHQL, в которой исправлена проблема появления черного экрана, вследствие чего каких-либо проблем при проведении тестирования не возникало.

Характеристики видеокарты Nvidia RTX 5080.

Теперь расскажем о всех характеристиках более подробно:

Кодовое имя чипа	GB203
Технология производства	5 нм (TSMC 4N)
Количество транзисторов	45,6 млрд
Количество универсальных процессоров	10752
Количество текстурных блоков	336
Количество блоков ROP	112
Тип памяти	GDDR7
Шина памяти	256 бит
Объем памяти	16 ГБ
Пропускная способность памяти	960 ГБ/с
Шина	PCI Express 5.0 x16
Энергопотребление	до 360 Вт

Для полноты картины также поясним касательно центрального процессора. Мы используем один из самых лучших CPU для работы в ИИ-системах — серверный процессор AMD EPYC 7F72 с 24 ядрами, 48 потоками, тактовой частотой 3.2—3.7ГГц, и TDP в 240W. Теперь, когда мы рассказали об используемом железе, можно переходить к самому интересному — тестам ИИ.

Развертывание и сравнение локальных нейросетей на Nvidia RTX 5080

Поскольку объем памяти Nvidia RTX 5080 достигает лишь 16 ГБ, мы весьма ограничены в выборе LLM, поэтому решили установить 5 разных нейросетей, некоторые из которых вы могли видеть в нашей статье про передовые модели ИИ из КНР. Вот какие модели мы будет рассматривать в нашем кейсе:

Qwen 2.5-14b — универсальная языковая модель от компании Alibaba;
Qwen 2.5-coder-14b — нейросеть от Alibaba для решения задач программирования;
DeepSeek R1-14b — универсальная языковая модель от компании DeepSeek;
Gemma 2-27b — ИИ от Google для выполнения мультимодальных задач;
Mistral Small-24b — универсальная языковая модель от компании Mistral AI.

Перечень скачанных моделей в интерфейсе Ollama-UI.

В качестве фреймворка для установки и запуска LLM мы использовали платформу Ollama. Мы выбрали Ollama, поскольку посчитали этот фреймворк более интуитивно понятным и простым в использовании — после установки Ollama, все модели можно скачивать, выбирать и запускать прямо в командной строке устройства. Также мы учитывали потребление VRAM выбранных моделей, так как ИИ с потреблением видеопамяти более 16 ГБ не подойдут для видеокарты Nvidia RTX 5080. Единственный минус фреймворка Ollama — отсутствует какой-либо графический интерфейс и вся коммуникация с движком инференса идет через cmd. Однако, при необходимости это можно решить при помощи установки расширения Ollama-GUI, которое скачивается через пакетный менеджер PIP, либо использовать расширение для Google Chrome Ollama-UI. В нашем кейсе мы решили использовать именно интерфейс Ollama-UI для удобства тестирования нейросетей.

Сравниваем Qwen2.5 14b и DeepSeek R1-14b

Модели DeepSeek R1 и Qwen2.5, несмотря на свое китайское происхождение, являются прямыми конкурентами, так как предлагают аналогичный функционал и, по заявлениям пользователей, примерно одинаковы по производительности.

DeepSeek R1 является самой популярной нейросетью от китайских разработчиков, которая стала известной благодаря высокой производительности и точности результатов, опередив передовые нейросети от OpenAI. DeepSeek R1 доступна для скачивания в открытых источниках и предлагает ряд квантизированных версий. В нашем случае мы будем использовать версию DeepSeek R1 с 14 миллиардами параметров, которая потребляет 9 ГБ VRAM. В свою очередь, Qwen2.5 является наиболее перспективным конкурентом DeepSeek R1 — модель также выпущена китайскими разработчиками и опережает западные модели ИИ по многим параметрам. Однако, в отличие от DeepSeek R1, Qwen2.5 не имеет функции рассуждения, поскольку она появилась только с выпуском нейросети QwQ, о которой мы рассказали в этой статье. Qwen2.5 также доступна в открытых источниках и предлагает ряд квантизированных версий, в том числе и модель на 14 миллиардов параметров с потреблением 9 ГБ VRAM.

Нам стало интересно, действительно ли эти 2 нейросети имеют одинаковый уровень производительности, поэтому решили столкнуть DeepSeek R1 и Qwen2.5 с 14 миллиардами параметров лоб в лоб, оценив их эффективность в разных задачах и рассказав об опыте использования. В первую очередь, рассмотрели эффективность в задачах естественного языка.

Мы попросили DeepSeek R1 и Qwen2.5 провести проверку текста, в котором намеренно допустили несколько орфографических, пунктуационных и фактических ошибок. Использовали следующий промпт для обеих моделей:

“Ты — профессиональный редактор текста: Прочитай и выяви ошибки в тексте, который я пришлю далее, в соответствии с правилами русского языка: Найди орфографические, пунктуационные, фактические ошибки. Выпиши все найденные ошибки, объясни их и предложи решение. Будь максимально внимателен, ответ должен быть коротким и включать только ошибки, никаких рассуждений”.

Сначала DeepSeek R1 14B не понял запрос и начал комплексно разбирать весь текст по каждому пункту, причем, делал это бесконечно. Возможно, проблема была в неточности промта, поэтому мы добавили уточнение, что ответ нейросети должен быть максимально коротким и включал только места, где были допущены указанные ошибки. После ввода нового промта DeepSeek R1 начал размышлять на английском языке и в конечном счете быстро вывел все ошибки.

Ответ модели DeepSeek R1:14b.

DeepSeek R1 очень быстро генерирует ответ по заданному промпту (около 2-3 секунд), а точность ответов высока даже с учетом квантизации, но 4 пункт, на наш взгляд, является лишним. В целом, эта модель отлично подойдет для решения повседневных задач или даже для интеграции в коммерческие сетевые инфраструктуры, поскольку ее универсальность позволяет выполнять широкий спектр бизнес-задач. Например, мы дополнительно попросили DeepSeek R1 создать небольшую карточку товара для серверного центрального процессора AMD EPYC 7551P. Вот какой результат предоставил DeepSeek R1:

Ответ модели DeepSeek R1:14b.

DeepSeek R1 точно расписал все характеристики и описал чип, но в тексте иногда прослеживаются китайские иероглифы — это весьма распространенная ошибка моделей рассуждения, при которой ИИ путает язык генерации текста. Эта проблема не критична и никак не портит пользовательский опыт.

Теперь оценим эффективность модели Qwen2.5. Запускаем ИИ, вводим тот же промпт с текстом и смотрим результат. Так как Qwen2.5 не является размышляющей моделью, этот ИИ не тратил токены на рассуждение, однако, скорость генерации ответа упала — на создание текста ушло около 5 секунд, причем, ответ был короче. Краткость ответа — следствие того, что Qwen2.5 более точно следовал заданному промпту, что раскрывает модель с лучшей стороны. Но в 1 пункте ИИ не понял контекст сокращения термина и посчитал это ошибкой.

Ответ нейросети Qwen2.5:14b.

Несмотря на несколько незначительных нюансов, обе модели показали себя с лучшей стороны, но в повседневном использовании мы бы порекомендовали применять модель DeepSeek R1, поскольку она глубже понимает контекст и при необходимости нейросеть можно обучить, сделав ее ответы более точными и релевантными. Также в копилку DeepSeek R1 идет передовая функция размышления, которая позволяет нейросети лучше справляться с решением математических, научных и логических задач.

Сравнение Gemma 2-27b и Mistral Small 3-24b

Gemma 2-27b и Mistral Small 3-24b — 2 языковые модели с большим количеством параметров (27 и 24 миллиарда параметров), потребление VRAM которых оптимально для видеокарты Nvidia RTX 5080 (14 и 16 ГБ VRAM соответственно). Обе LLM являются мультимодальными и должны хорошо справляться с задачами естественного языка. Конечно, разница в 3 миллиарда параметров может сыграть определенную роль в сравнении производительности Gemma 2-27b и Mistral Small-24b, однако, разница не должна быть сильно критичной, так как модели позиционируются как малые нейросети с производительность, равной популярным большим LLM. Попробуем протестировать эффективность Gemma 2-27b от Google при выполнении следующего промпта:

“Предоставьте краткий и структурированный конспект для текста объемом 5000 слов об эволюции центрального процессора (ЦП), охватывающий его раннее зарождение, основные вехи и значительные достижения в области компьютерной архитектуры, выделяя ключевые фигуры, инновации и технологические прорывы, которые определяли развитие ЦП с течением времени”.

Ответ нейросети Gemma 2:27b.

Получился вполне сносный, подробный план без каких-либо ошибок, основываясь на который можно создать интересный, подробный текст. Однако, на генерацию такого конспекта у модели Gemma 2:27b ушло около 1-2 минут, что весьма долго по сравнению со скоростью генерации текста через DeepSeek R1 и Qwen 2.5. Несмотря на это, долгий ответ нивелируется точностью предоставленного результата, который можно получить при весьма скромном размере контекстного окна в 8000 токенов. Посмотрим, как модель справится с переводом этого текста на нативный английский.

Ответ Gemma 2:27b.

Перевод текста также дается модели Gemma 2:27b очень легко, хоть скорость осталась на том же уровне. Мы бы не стали рекомендовать Gemma 2 для решения повседневных задач — эта модель скорее подходит для выполнения объемных, комплексных операций, где важна не скорость, а качество результата — математические и научные вычисления.

Переходим к тесту Mistral Small 3-24b. Эта нейросеть потребляет 14 ГБ VRAM при размере в 24 миллиарда параметров, при этом превосходит Gemma 2 по размеру контекстного окна — его объем составляет 131 000. Как и Gemma 2, Mistral Small 3 позиционирует себя как малую языковую модель, которая способна конкурировать с большими LLM, вроде Qwen 2.5, *Llama 3.3 или GPT-4o, при этом ее можно запустить на потребительских системах с видеокартой RTX 4090 или MacBook с 32 ГБ оперативной памяти. Давайте посмотрим, на что способна Mistral Small 3 — дадим ей ту же задачу, что и модели Gemma 2.

Ответ Mistral Small 3:24b.

У Mistral Small 3 появились проблемы с генерацией конспекта — ИИ потратил около 30 секунд только на обработку запроса, а на генерацию текста ушло примерно 5 минут, что в разы медленнее, чем ответ Gemma 2, хотя заявленная скорость обработки у Mistral Small 3 составляет 150 токенов в секунду. Перевод текста не улучшил результаты — хоть точность ответа велика, скорость генерации также оставляет желать лучшего:

Ответ Mistral Small 3:24b.

Исходя из этого, мы бы не стали рекомендовать эту модель для повседневного или коммерческого использования, так как Gemma 2 и другие ИИ справляются с генерацией ответов в разы быстрее при той же точности.

Запуск Qwen 2.5-coder-14b

Модель Qwen 2.5-coder с 14 миллиардами параметров является специальной LLM для выполнения различных операций, связанных с программированием — проверка кода, генерация кода, доработка кода и т.д. Мы решили оценить, насколько эффективно эта модель справится с генерацией кода главной страницы сайта компании, занимающейся продажей серверного оборудования — на сайте должны быть различные разделы, описание интернет-магазина и контактные данные. Вот какой результат предоставила Qwen 2.5-coder:14b.

Ответ Qwen 2.5-coder:14b.

Код был сгенерирован всего за несколько секунд, но важно проверить его на работоспособность через эмулятор HTML-кода.

Запуск HTML-кода Qwen 2.5-coder-14b в эмуляторе.

Код оказался рабочим и смог создать простой, одностраничный сайт с разделами, что и требовалось в запросе. Вывод — Qwen 2.5-coder быстро и эффективно справляется со своими задачами и эту модель вполне можно использовать для задач программирования. Если более подробно проработать промпт, что вполне возможно благодаря контекстному окну величиной в 131 000, то с помощью этого ИИ можно создавать полноценные сайты.

Выводы

Nvidia GeForce RTX 5080 — это отличная видеокарта для развертывания больших языковых моделей с небольшим количеством параметров. RTX 5080 обеспечивает весьма высокий уровень производительности LLM, однако, ее небольшого объема VRAM хватит лишь для развертывания квантизированных моделей ИИ, а отсутствие сверхбыстрой HBM-памяти ограничивает возможности обучения нейросетей. Однако, если вы хотите развертывать большие, неквантизированные LLM, то вам потребуются более мощные графические решения, вроде V100 на 32 ГБ, A100 на 40 ГБ, H100 96 ГБ и так далее. А если вы затрудняетесь с выбором видеокарты для ИИ, то обратитесь к консультантам компании ServerFlow — наши специалисты помогут с выбором графического решения под локальное развертывание LLM, которое идеально подойдет под ваши системные требования и бюджет.

Автор:

Serverflow

Запуск локальных LLM и оценка производительности видеокарты RTX 5080

Введение

Характеристики видеокарты Nvidia GeForce RTX 5080

Развертывание и сравнение локальных нейросетей на Nvidia RTX 5080

Сравниваем Qwen2.5 14b и DeepSeek R1-14b

Сравнение Gemma 2-27b и Mistral Small 3-24b

Запуск Qwen 2.5-coder-14b

Выводы

Комментарии 0