ИИ-ускорители AMD Instinct MI300X кратно увеличивают производительность DeepSeek-R1

02.04.2025

~ 5 мин

2642

Средний

Статьи

Введение

Компания AMD в своем блоге опубликовала ряд материалов об инференсе передовой нейросети DeepSeek-R1 на ИИ-ускорителях Instinct MI300X, заявив, что это позволяет в 4 раза увеличить скорость скорость вывода данных, при этом обеспечивая эффективное масштабирование, снижение задержек и другие улучшения. Кроме того, AMD сравнила эффективность инференса на Instinct MI300X с ИИ-ускорителями Nvidia H200, в итоге придя к весьма интересным выводам. В этой статье мы подробно разберем этот кейс и объясним, как AMD обеспечивает столь высокую производительность DeepSeek-R1 на своих передовых графических ускорителях.

Сложности в развертывании DeepSeek R1

Как отмечает AMD, локальное развертывание DeepSeek R1 является сложной задачей с технической точки зрения, поскольку колоссальные размеры модели, достигающие 671 миллиарда. Для инференса такой LLM требуется использовать мощную вычислительную инфраструктуру с 404 ГБ VRAM, а для обучения — свыше 640 ГБ VRAM. Даже при обучении в режиме FP8, будет недостаточно системы с 8 ИИ-ускорителями Nvidia H100, которые считаются эталонными в области обучения передовых LLM. Сложностей добавляет сама архитектуре нейросети — DeepSeek R1 построена на базе архитектур Multi-Head Latent Attention (MLA) и Mixture of Experts (MoE), вследствие чего для корректной работы модели требуются выскооптимизированные ядра GPU. Также графическим ускорителям необходимо выполнять операции FP8 GEMM, которые входят в библиотеку DeepGEMM от DeepSeek AI для поблочного квантования, что отражается на пропускной способности и итоговой производительности LLM.

Именно поэтому для выполнений условий развертывания требуется мощный ИИ-ускоритель с большим объемом VRAM, высокоэффективными ядрами и поддержкой различных операций, какими и являются ускорители AMD Instinct MI300X cо 192 ГБ памяти в формате HBM3 и 1216 матричными ядрами. Но и этого будет недостаточно, так как от выбора платформы для развертывания тоже будет зависеть производительность LLM. Чтобы достичь максимальной эффективности при развертывании и обучении DeepSeek R1, AMD рекомендует использовать приложение SGLang.

Что такое SGLang?

SGLang — это передовая платформа с открытым исходным кодом для работы с локальными LLM и VLM. SGLang поддерживает широкий перечень популярных LLM, таких как семейства ИИ DeepSeek, Qwen, Mistral, Gemma и т.д. SGLang также обеспечивает удобство работы с нейросетями и имеет активное сообщество, активно дополняющее функционал фреймворка и поддержку новых языковых моделей. Компания AMD тесно сотрудничает с сообществом SGLang и вносит большой вклад в развитие этого фреймворка в целях оптимизации инференса и обучения ИИ на ускорителях семейства AMD Instinct. Для обеспечения высочайшей производительности и удобства развертывания LLM на системах MI300X, разработчики приложения SGLang выпускают готовые образы Docker и файлы Docker, которые можно применять в качестве шаблона для пользовательских образов с разными требованиями к ИИ.

В результате развертывания DeepSeek R1 через фреймворк SGLang на системе с 8 ускорителями Instinct MI300X, AMD удалось добиться 4-кратного прироста количества токенов в инференсе. Также при запуске DeepSeek R1 в виде онлайн-приложения, время обработки одного выходного токена (TPOT) сократилось 50 мс, причем, параллельная обработка до 32 запросов не увеличила задержку ответа модели.

График, демонстрирующий 4-кратный прирост количества токенов при запуске DeepSeek R1 на Instinct MI300X через фреймворк SGLang. Источник: AMD.

Помимо этого, AMD провели сравнение запуска DeepSeek R1 на ускорителях Instinct MI300X и ускорителях H200 через SGLang. Тест показал, что задержка вывода данных модели при запуске модели DeepSeek R1 на MI300X снижается на 60%, производительность увеличивается на 75% при том же количестве выполняемых задач. При этом, AMD вывела определенную закономерность — при максимальном количестве параллельных процессов от 1 до 32 производительность в основном ограничена памятью, а при максимальном количестве параллельных процессов от 32 до 64 она ограничена вычислительными ресурсами.

Сравнение производительности DeepSeek R1 при запуске на AMD Instinct MI300X и Nvidia H200

Сравнение производительности DeepSeek R1 в режимах FP8/TP8, запущенной на ИИ-ускорителях AMD Instinct MI300X и Nvidia H200 в фреймворке SGLang. Источник: AMD.

Еще один фактор, который свидетельствует о преимуществе запуска DeepSeek R1 MI300X — кратно большее количество одновременно выполняемых операций без увеличения задержки. Если на ускорителях H200 DeepSeek R1 может выполнять 16 одновременных запросов без потери производительности, то при запуске на MI300X количество одновременных запросов возрастает до 128.

Методы оптимизации работы DeepSeek R1 на ускорителях AMD Instinct MI300X

Даже с учетом высокой эффективности запуска LLM на Instinct MI300X совместно с фреймворком SGLang, производительность DeepSeek R1 можно увеличить еще больше, если воспользоваться рядом методов оптимизации:

Тензорный движок AITER для ROCm. AITER — это новейшая тензорная ИИ-библиотека с открытым исходным кодом. AITER предоставляет широкий ассортимент API, написанных на синтаксисах Python и C++, которые можно легко интегрировать в различные открытые фреймворки, включая SGlang и vLLM. Благодаря использованию AITER, пользователи могут оптимизировать ядра моделей семейства DeepSeek, что значительно увеличит пропускную способность этих LLM при инференсе на AMD Instinct MI300X. В частности, AITER предлагает увеличить производительность в 2 раза на блочной архитектуре GEMM и до 3 раз на блочной архитектуре MoE. На архитектуре MLA декодирование ускоряется до 17 раз, а на архитектуре MHA — до 14 раз. Стоит отметить, что библиотека AITER работает только совместно с программным стеком ROCm.
Настройка гиперпараметра. При запуске LLM, которым требуется обрабатывать большое количество одновременных запросов (128 и выше) для минимизации увеличения задержки рекомендуется настраивать высокие значения параметра “chunked_prefill_size”. Этот параметр увеличивает скорость вывода данных у моделей LLM, однако параллельно увеличивает потребление видеопамяти ИИ-ускорителя.

Увеличение пропускной способности DeepSeek R1 при запуске на Instinct MI300X через фреймворк SGlang с настроенным гиперпараметром “chunked_prefill_size”. Источник: AMD.

Выводы

AMD не планирует останавливаться на достигнутых результатов и продолжает совершенствовать инференс и обучение DeepSeek R1 на своих передовых ускорителях Instinct MI300X. Уже сейчас ведется активная работа по внедрению новейших методов оптимизации производительности, такие как экспертный параллелизм, предварительное заполнение, декодирование дезагрегации и спекулятивное расшифровывание. Напомним, что все вышеперечисленные инструменты находятся в открытом доступе и любой желающий может установить их через Hugging Face и запустить в своей вычислительной системе на базе ускорителей серии AMD Instinct MI300X. Однако, неизвестно, почему AMD говорит о MI300X, а не об ускорителях MI325X, поставки которых начались в 1 квартале 2025 года. Возможно, это связано с доступностью Instinct MI300X, так как только появившиеся в продаже MI325X могут себе позволить далеко не все пользователи, создающие открытый исходный код для фреймворка SGlang.

Автор:

Serverflow

Комментарии 1

НейроБОГ

03.04.2025

А почему с Ascend 910C не справнили? Deepseek китайская разработка и инференсился изначально на ускорителях из поднебесной. Уверен, что китайцам удалось достигнуть результатов сравнимых с H100 или H200 NVL. Да и вдумайтесь, Ascend это по факту FPGA - не видеокарта, он заточен под нейросети, а мы ведем речь о видеокартах общего назначения.

Сравнивать Ascend 910C с видеокартами общего назначения, как вы верно заметили, не совсем уместно. Но H100 и H200 NVL — это тоже специализированные ускорители для дата-центров, а не потребительские GPU. Так что в контексте DeepSeek и инференса Ascend 910C выглядит логичным выбором для китайцев: он дешевле (около 4 тысяч долларов против 30 тысяч за H100), доступен внутри страны и поддерживает их софт через PyTorch и CANN. Достигли ли китайцы паритета с NVIDIA? Пока, скорее, нет — H100 всё ещё впереди по пиковой производительности и экосистеме. Но для локального рынка и задач вроде инференса Ascend 910C уже вполне конкурентоспособен.