Top.Mail.Ru
Видеокарта AMD Instinct MI100: обзор характеристик и тестирование в современных нейросетях | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
1 мая - праздничный выходной. Все заявки будут обработаны 4 мая. С праздниками!
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Видеокарта AMD Instinct MI100: обзор характеристик и тестирование в современных нейросетях

~ 20 мин
390
Простой
Статьи
Видеокарта AMD Instinct MI100: обзор характеристик и тестирование в современных нейросетях

Введение: первенец “красной” компании

На границе 20-х годов, когда начали вырисовываться контуры нового рынка – серверных видеокарт, AMD сделала свой ход в этой многолетней борьбе и представила выдающийся по характеристикам ускоритель – Instinct MI100. Выпущенная в 2020 году на первом поколении архитектуры CDNA, эта видеокарта стала первым серьёзным вызовом доминированию CUDA. И несмотря на то что на рынке появились более новые поколения, MI100 до сих пор остаётся интересной картой для энтузиастов и профессионалов благодаря уникальному соотношению цены и возможностей.

Интересно, что MI100 изначально позиционировалась именно как научно-вычислительный ускоритель. В тот отрезок времени NVIDIA беспросветно доминировала в научных расчётах со своими Tesla V100 и A100. AMD же решила предложить альтернативу, которая была не просто быстрее, но и дешевле в пересчёте на один TFLOPS. И в отличие от NVIDIA, AMD не боялась активно поддерживать открытые стандарты и ROCm-экосистему, хотя это был рискованный выбор.

Сегодня мы с вами познакомимся поближе с первопроходцем от красной компании, и оценим его производительность в современных LLM.

Характеристики видеокарты AMD Instinct MI100

AMD Instinct MI100 построена на архитектуре CDNA первого поколения и представляет собой полное переосмысление подхода AMD к вычислительным ускорителям. В отличие от традиционного GPU, который рождается из линейки игровых видеокарт и затем адаптируется под вычисления, MI100 с самого начала проектировалась как вычислительный ускоритель. Это видно в каждой детали архитектуры. Именно с этого момента AMD начала архитектурно разделять игровые и суперкомпьютерные видеокарты: RDNA – для игр, CDNA – для вычислений.

Характеристики видеокарты AMD Instinct MI100

Нутро MI100 – это 120 вычислительных блоков, каждый из которых содержит 64 унифицированных потока – Stream Cores. Итого получается 7680 универсальных ядер. К тому же AMD Instinct MI100 оснащена матричными ядрами MFMA (Matrix Fused Multiply-Add), специализированных на матричных операциях. Это совсем не то же самое, что CUDA-ядра NVIDIA. MFMA-ядра AMD в некотором смысле более гибкие: они способны работать с различными форматами данных и размерностями матриц за один такт, в то время как тензорные ядра NVIDIA заточены на конкретные операции.

Видеокарта AMD Instinct MI100
Именно Instinct MI100 стала первой обладательницей матричных ядер со стороны AMD.

Производительность MI100 в разных режимах точности выглядит так: 23.1 TFLOPS в режиме FP32 и 11.5 TFLOPS в FP64. В матричных вычислениях, характерных для ML-нагрузок, заявлено до 46.1 TFLOPS (FP32 Matrix) и до 184.6 TFLOPS (FP16). Но самый впечатляющий результат даёт работа с целыми числами и низкой точностью: 184.6 TOPS в режиме INT8. Это означает, что MI100 практически ровня по производительности в INT8 NVIDIA V100 (благодаря работе с MFMA), но уже имеет встроенную поддержку более современных форматов.

Память MI100 заслуживает отдельного упоминания. Видеокарта оснащена многослойной HBM2 памятью объёмом 32 ГБ, обладающей пропускной способностью 1228 ГБ/с. Для сравнения: память NVIDIA Tesla V100, о которой мы недавно рассказывали, имеет пропускную способность на уровне 897 ГБ/с.

Однако давайте не будем опираться на сухие цифры производительности и посмотрим на видеокарту в реальных задачах.

Установка видеокарты AMD Instinct MI100 в систему и запуск на Linux

AMD Instinct MI100 занимает 2 слота, а её длина всего 267 мм. Однако не нужно обманываться, ведь это габариты без охлаждения, а поскольку MI100 не имеет собственного активного охлаждения – для использования в десктопных системах его придётся поставить самостоятельно. К примеру  с нашим турбовентиляторным охлаждением её длина возрастёт до 402 мм.

Видеокарта AMD Instinct MI100 внутри корпуса

Поскольку функциональность AMD Instinct MI100 ограничена Linux-дистрибутивами, мы будем использовать самый популярный из них – Ubuntu 24.04.3 LTS. Но какую версию ROCm поставить в пару к Ubuntu? Имеется ли разительная разница между старыми и новыми версиями? Давайте проведём небольшой эксперимент и выясним истину.

AMD ROCm 6 против AMD ROCm 7, какая версия лучше для Ubuntu?

Видеокарта AMD Instinct MI100 и Ubuntu

В качестве подопытных будут использоваться две наиболее стабильные по нашему опыту версии веток для Instinct MI100: ROCm 7.0.0 и ROCm 6.14.14. Обе версии используются в рекомендованных AMD контейнерах.

Выборка моделей состоит из пяти популярных и уже проверенных временем моделей.

Сравнение ROCm 7.0.0 vs ROCm 6.14.14

Модель Форматы квантизации Скорость (т/сек) До первого токена Длина контекста
ROCm 7.0.0
Qwen 2.5 7B-Instruct Q4_K_M 77.55 т/сек 0.06 сек. 4096
Llama 3.1 8B-Instruct* Q4_K_M 88.06 т/сек 0.47 сек. 4096
Mistral 7B v0.3 Q4_K_M 74.02 т/сек 0.44 сек. 4096
gpt-oss-20b MXFP4 124.10 т/сек Лучшая 0.08 сек. 4096
Mistralai/Devstral-small-2-2512 24B Q4_K_M 51.41 т/сек 0.45 сек. 4096
ROCm 6.14.14
Qwen 2.5 7B-Instruct Q4_K_M 81.41 т/сек 0.22 сек. 4096
Llama 3.1 8B-Instruct* Q4_K_M 90.22 т/сек Быстро 0.42 сек. 4096
Mistral 7B v0.3 Q4_K_M 85.58 т/сек 0.30 сек. 4096
gpt-oss-20b MXFP4 103.88 т/сек 0.09 сек. 4096
Mistralai/Devstral-small-2-2512 24B Q4_K_M 51.94 т/сек 0.35 сек. 4096

Итак, если брать за метрику количество токенов в секунду:

  • ROCm 6.14.14 быстрее на Qwen 2.5 7B (+4.7%), Llama 3.1 8B (+2.4%), Mistral 7B v0.3 (+13.5%), Devstral-small-2 24B (+1.0%) относительно ROCm 7.0.0.

  • ROCm 7.0.0 оказался быстрее только на gpt-oss-20b (MXFP4) примерно на +19.5% (124.1 vs 103.88 ток/с).

В большинстве моделей с небольшим отрывом лидирует ROCm 6.14.14, отличился только gpt-oss-20b. В плане стабильности шестая версия тоже впереди, она отработала на всех моделях без заминок. А вот 7.0 “запнулся” и выпал в ошибку на Devstral-small-2-2512 24B. Всего единожды, но всё же.

Определив фаворита среди версий программных платформ, можно приступить к тестированию.

Тест видеокарты AMD Instinct MI100 в популярных LLM на Linux

Подборка состоит из нескольких сегментов: Популярные, крупные модели, модели для кодинга и недавно появившиеся на свет LLM.

Тестирование LLM на AMD Instinct MI100

Модель Форматы квантизации Скорость (т/сек) До первого токена Длина контекста Примечания
Базовые популярные модели
Qwen 2.5 7B-Instruct Q4_K_M 81.41 т/сек 0.22 сек. 4096 Разумная, провереная временем модель.
Llama 3.1 8B-Instruct* Q4_K_M 90.22 т/сек Быстро 0.42 сек. 4096 Немногословна, но дает только верные ответы.
Mistral 7B v0.3 Q4_K_M 85.58 т/сек 0.30 сек. 4096 Самая среднестатистическая из представленных, ничем не выделяется.
gpt-oss-20b MXFP4 103.88 т/сек Лучшая 0.09 сек. 4096 Лучшая нейросетевая модель, самые подробные и быстрые ответы.
Mistralai/Devstral-small-2-2512 24B Q4_K_M 51.94 т/сек 0.35 сек. 4096 Типовая MoE модель, пришедшая на замену Mixtral 8x7B. Дает добротные ответы.
Крупные языковые модели
Qwen 2.5 14B-Instruct Q4_K_M 51.22 т/сек 0.06 сек. 4096 Иногда спотыкается на сложных предложениях, задумываясь на доли секунды.
Qwen3 14B Q4_K_M 53.10 т/сек 0.08 сек. 4096 Лишена изъянов версии 2.5
Gemma 3 27B-IT-QAT Q4_O 51.24 т/сек 0.50 сек. 4096 Грамотно и логично строит ответы, никогда не плутает в словах и не допускает ошибок
Qwen3 32B Q4_K_M 20.75 т/сек Медленно 0.71 сек. 4096 Чрезвычайно подробные ответы, ловко жонглирует грамотными словосочетаниями как на русском, так и на английском языке.
Кодовые модели
Deepseek Coder 7B Q4_K_M 60.76 т/сек 0.15 сек. 4096 Легко пишет простенькие программы и скрипты
Code Llama 7B* Q4_K_M 99.98 т/сек Быстро 0.09 сек. 4096 Самый шустрый из кодеров
Granite Code 8B Q4_K_M 81.60 т/сек 0.19 сек. 4096 Добротный кодер, но плохо понимает запросы на русском.
Недавние релизы / reasoning
DeepSeek-R1 Distilled 14B Q4_K_M 52.70 т/сек 0.08 сек. 4096 Не очень хорошо дружит с русским языком.
DeepSeek-R1 Distilled 32B Q4_K_M 21.54 т/сек Медленно 0.16 сек. 4096 Немногим лучше версии на 14млрд параметров
Ministral 3 14B-Instruct Q4_K_M 71.03 т/сек 0.32 сек. 4096 Дает чрезвычайно развернутые и подробные ответы
Ministral 3 14B-Reasoning Q4_K_M 53.76 т/сек 0.35 сек. 4096 Прекрасная модель, может тягаться с gpt-oss-20b
Все модели протестированы на AMD Instinct MI100 с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). «До первого токена» показывает время ответа системы с момента начала запроса.
Как можно наблюдать результаты весьма достойны. MI100 сделала очевидный рывок в производительности по сравнению с предшествующей ей AMD Instinct MI50. А 32 гигабайта высокоскоростной памяти всё ещё достаточно для запуска масштабных языковых моделей. 

Но помимо очевидных плюсов “сотка” обладает одним существенным недостатком в сопоставлении с прошлым поколением ускорителей.

Температуры и энергопотребление видеокарты AMD Instinct MI100

Новое поколение вышло куда более пылким и прожорливым чем её предшественники на GCN 5.1.
Ниже приведён график с показателями температур и энергопотребления в ходе часового стресс теста. В первой половине теста Instinct MI100 подвергалась напору крупных LLM моделей. А во второй половине – был запущен встроенный в ROCm бенчмарк.

Видеокарта AMD Instinct MI100 и её график температур
Часовой стресс-тест видеокарты AMD Instinct MI100.

Как можно созерцать – при нормированной нагрузке в крупных языковых моделях показатели температур колеблются от 75 до 85 градусов, придерживаясь средней отметки в 80.

В бенчмарке же температура взлетает и закрепляется на 95 градусах цельсия, практически не меняясь на протяжённости всего бенчмарка. Находясь на грани срабатывания механизмов защиты. При этом частоты к базовым карта сбрасывать категорически отказывается, держась на ~1200-1350 МГц.

По энергопотреблению ситуация схожа – AMD Instinct MI100 частенько упирается в свой лимит потребления: 300W. Поэтому рекомендуемый блок питания для десктопной системы с такой видеокартой 800-850W.

Энергопотребление видеокарты AMD Instinct MI100
При любой серьёзной нагрузке MI100 сразу же начинает стучаться в ограничитель.

Однако не нужно записывать это в критические изъяны – при наличии добротного блока питания, хорошего охлаждения и продуваемого корпуса эти недостатки отойдут на второй план. А вы получите высокопроизводительную видеокарту за очень разумную цену.

И вот, познакомившись со всеми положительными и отрицательными аспектами, можно подойти к итоговому выводу.

Заключение

Видеокарта AMD Instinct MI100 крупным планом

AMD Instinct MI100 однозначно хорошая карта с набором своих достоинств и издержек. Если вы готовы ограничить себя Linux-дистрибутивами и немного повозиться с ROCm – то это отличный вариант обзавестись мощным ускорителем и крупно сэкономить, относительно близлежащих конкурентов. А если вы и вовсе имеете опыт взаимодействия с “инстинктами” то этот ускоритель станет для вас наилучшим вложением по единице мощности на каждый затраченный рубль.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)