Видеокарта AMD Instinct MI100: обзор характеристик и тестирование в современных нейросетях

13.02.2026

~ 20 мин

390

Простой

Статьи

Введение: первенец “красной” компании

На границе 20-х годов, когда начали вырисовываться контуры нового рынка – серверных видеокарт, AMD сделала свой ход в этой многолетней борьбе и представила выдающийся по характеристикам ускоритель – Instinct MI100. Выпущенная в 2020 году на первом поколении архитектуры CDNA, эта видеокарта стала первым серьёзным вызовом доминированию CUDA. И несмотря на то что на рынке появились более новые поколения, MI100 до сих пор остаётся интересной картой для энтузиастов и профессионалов благодаря уникальному соотношению цены и возможностей.

Интересно, что MI100 изначально позиционировалась именно как научно-вычислительный ускоритель. В тот отрезок времени NVIDIA беспросветно доминировала в научных расчётах со своими Tesla V100 и A100. AMD же решила предложить альтернативу, которая была не просто быстрее, но и дешевле в пересчёте на один TFLOPS. И в отличие от NVIDIA, AMD не боялась активно поддерживать открытые стандарты и ROCm-экосистему, хотя это был рискованный выбор.

Сегодня мы с вами познакомимся поближе с первопроходцем от красной компании, и оценим его производительность в современных LLM.

Характеристики видеокарты AMD Instinct MI100

AMD Instinct MI100 построена на архитектуре CDNA первого поколения и представляет собой полное переосмысление подхода AMD к вычислительным ускорителям. В отличие от традиционного GPU, который рождается из линейки игровых видеокарт и затем адаптируется под вычисления, MI100 с самого начала проектировалась как вычислительный ускоритель. Это видно в каждой детали архитектуры. Именно с этого момента AMD начала архитектурно разделять игровые и суперкомпьютерные видеокарты: RDNA – для игр, CDNA – для вычислений.

Нутро MI100 – это 120 вычислительных блоков, каждый из которых содержит 64 унифицированных потока – Stream Cores. Итого получается 7680 универсальных ядер. К тому же AMD Instinct MI100 оснащена матричными ядрами MFMA (Matrix Fused Multiply-Add), специализированных на матричных операциях. Это совсем не то же самое, что CUDA-ядра NVIDIA. MFMA-ядра AMD в некотором смысле более гибкие: они способны работать с различными форматами данных и размерностями матриц за один такт, в то время как тензорные ядра NVIDIA заточены на конкретные операции.

Именно Instinct MI100 стала первой обладательницей матричных ядер со стороны AMD.

Производительность MI100 в разных режимах точности выглядит так: 23.1 TFLOPS в режиме FP32 и 11.5 TFLOPS в FP64. В матричных вычислениях, характерных для ML-нагрузок, заявлено до 46.1 TFLOPS (FP32 Matrix) и до 184.6 TFLOPS (FP16). Но самый впечатляющий результат даёт работа с целыми числами и низкой точностью: 184.6 TOPS в режиме INT8. Это означает, что MI100 практически ровня по производительности в INT8 NVIDIA V100 (благодаря работе с MFMA), но уже имеет встроенную поддержку более современных форматов.

Память MI100 заслуживает отдельного упоминания. Видеокарта оснащена многослойной HBM2 памятью объёмом 32 ГБ, обладающей пропускной способностью 1228 ГБ/с. Для сравнения: память NVIDIA Tesla V100, о которой мы недавно рассказывали, имеет пропускную способность на уровне 897 ГБ/с.

Однако давайте не будем опираться на сухие цифры производительности и посмотрим на видеокарту в реальных задачах.

Установка видеокарты AMD Instinct MI100 в систему и запуск на Linux

AMD Instinct MI100 занимает 2 слота, а её длина всего 267 мм. Однако не нужно обманываться, ведь это габариты без охлаждения, а поскольку MI100 не имеет собственного активного охлаждения – для использования в десктопных системах его придётся поставить самостоятельно. К примеру с нашим турбовентиляторным охлаждением её длина возрастёт до 402 мм.

Видеокарта AMD Instinct MI100 внутри корпуса

Поскольку функциональность AMD Instinct MI100 ограничена Linux-дистрибутивами, мы будем использовать самый популярный из них – Ubuntu 24.04.3 LTS. Но какую версию ROCm поставить в пару к Ubuntu? Имеется ли разительная разница между старыми и новыми версиями? Давайте проведём небольшой эксперимент и выясним истину.

AMD ROCm 6 против AMD ROCm 7, какая версия лучше для Ubuntu?

В качестве подопытных будут использоваться две наиболее стабильные по нашему опыту версии веток для Instinct MI100: ROCm 7.0.0 и ROCm 6.14.14. Обе версии используются в рекомендованных AMD контейнерах.

Выборка моделей состоит из пяти популярных и уже проверенных временем моделей.

Сравнение ROCm 7.0.0 vs ROCm 6.14.14

Модель	Форматы квантизации	Скорость (т/сек)	До первого токена	Длина контекста
ROCm 7.0.0
Qwen 2.5 7B-Instruct	Q4_K_M	77.55 т/сек	0.06 сек.	4096
Llama 3.1 8B-Instruct*	Q4_K_M	88.06 т/сек	0.47 сек.	4096
Mistral 7B v0.3	Q4_K_M	74.02 т/сек	0.44 сек.	4096
gpt-oss-20b	MXFP4	124.10 т/сек Лучшая	0.08 сек.	4096
Mistralai/Devstral-small-2-2512 24B	Q4_K_M	51.41 т/сек	0.45 сек.	4096
ROCm 6.14.14
Qwen 2.5 7B-Instruct	Q4_K_M	81.41 т/сек	0.22 сек.	4096
Llama 3.1 8B-Instruct*	Q4_K_M	90.22 т/сек Быстро	0.42 сек.	4096
Mistral 7B v0.3	Q4_K_M	85.58 т/сек	0.30 сек.	4096
gpt-oss-20b	MXFP4	103.88 т/сек	0.09 сек.	4096
Mistralai/Devstral-small-2-2512 24B	Q4_K_M	51.94 т/сек	0.35 сек.	4096

Итак, если брать за метрику количество токенов в секунду:

ROCm 6.14.14 быстрее на Qwen 2.5 7B (+4.7%), Llama 3.1 8B (+2.4%), Mistral 7B v0.3 (+13.5%), Devstral-small-2 24B (+1.0%) относительно ROCm 7.0.0.

ROCm 7.0.0 оказался быстрее только на gpt-oss-20b (MXFP4) примерно на +19.5% (124.1 vs 103.88 ток/с).

В большинстве моделей с небольшим отрывом лидирует ROCm 6.14.14, отличился только gpt-oss-20b. В плане стабильности шестая версия тоже впереди, она отработала на всех моделях без заминок. А вот 7.0 “запнулся” и выпал в ошибку на Devstral-small-2-2512 24B. Всего единожды, но всё же.

Определив фаворита среди версий программных платформ, можно приступить к тестированию.

Тест видеокарты AMD Instinct MI100 в популярных LLM на Linux

Подборка состоит из нескольких сегментов: Популярные, крупные модели, модели для кодинга и недавно появившиеся на свет LLM.

Тестирование LLM на AMD Instinct MI100

Модель	Форматы квантизации	Скорость (т/сек)	До первого токена	Длина контекста	Примечания
Базовые популярные модели
Qwen 2.5 7B-Instruct	Q4_K_M	81.41 т/сек	0.22 сек.	4096	Разумная, провереная временем модель.
Llama 3.1 8B-Instruct*	Q4_K_M	90.22 т/сек Быстро	0.42 сек.	4096	Немногословна, но дает только верные ответы.
Mistral 7B v0.3	Q4_K_M	85.58 т/сек	0.30 сек.	4096	Самая среднестатистическая из представленных, ничем не выделяется.
gpt-oss-20b	MXFP4	103.88 т/сек Лучшая	0.09 сек.	4096	Лучшая нейросетевая модель, самые подробные и быстрые ответы.
Mistralai/Devstral-small-2-2512 24B	Q4_K_M	51.94 т/сек	0.35 сек.	4096	Типовая MoE модель, пришедшая на замену Mixtral 8x7B. Дает добротные ответы.
Крупные языковые модели
Qwen 2.5 14B-Instruct	Q4_K_M	51.22 т/сек	0.06 сек.	4096	Иногда спотыкается на сложных предложениях, задумываясь на доли секунды.
Qwen3 14B	Q4_K_M	53.10 т/сек	0.08 сек.	4096	Лишена изъянов версии 2.5
Gemma 3 27B-IT-QAT	Q4_O	51.24 т/сек	0.50 сек.	4096	Грамотно и логично строит ответы, никогда не плутает в словах и не допускает ошибок
Qwen3 32B	Q4_K_M	20.75 т/сек Медленно	0.71 сек.	4096	Чрезвычайно подробные ответы, ловко жонглирует грамотными словосочетаниями как на русском, так и на английском языке.
Кодовые модели
Deepseek Coder 7B	Q4_K_M	60.76 т/сек	0.15 сек.	4096	Легко пишет простенькие программы и скрипты
Code Llama 7B*	Q4_K_M	99.98 т/сек Быстро	0.09 сек.	4096	Самый шустрый из кодеров
Granite Code 8B	Q4_K_M	81.60 т/сек	0.19 сек.	4096	Добротный кодер, но плохо понимает запросы на русском.
Недавние релизы / reasoning
DeepSeek-R1 Distilled 14B	Q4_K_M	52.70 т/сек	0.08 сек.	4096	Не очень хорошо дружит с русским языком.
DeepSeek-R1 Distilled 32B	Q4_K_M	21.54 т/сек Медленно	0.16 сек.	4096	Немногим лучше версии на 14млрд параметров
Ministral 3 14B-Instruct	Q4_K_M	71.03 т/сек	0.32 сек.	4096	Дает чрезвычайно развернутые и подробные ответы
Ministral 3 14B-Reasoning	Q4_K_M	53.76 т/сек	0.35 сек.	4096	Прекрасная модель, может тягаться с gpt-oss-20b

Все модели протестированы на AMD Instinct MI100 с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). «До первого токена» показывает время ответа системы с момента начала запроса.

Как можно наблюдать результаты весьма достойны. MI100 сделала очевидный рывок в производительности по сравнению с предшествующей ей AMD Instinct MI50. А 32 гигабайта высокоскоростной памяти всё ещё достаточно для запуска масштабных языковых моделей.

Но помимо очевидных плюсов “сотка” обладает одним существенным недостатком в сопоставлении с прошлым поколением ускорителей.

Температуры и энергопотребление видеокарты AMD Instinct MI100

Новое поколение вышло куда более пылким и прожорливым чем её предшественники на GCN 5.1.

Ниже приведён график с показателями температур и энергопотребления в ходе часового стресс теста. В первой половине теста Instinct MI100 подвергалась напору крупных LLM моделей. А во второй половине – был запущен встроенный в ROCm бенчмарк.

Видеокарта AMD Instinct MI100 и её график температур

Часовой стресс-тест видеокарты AMD Instinct MI100.

Как можно созерцать – при нормированной нагрузке в крупных языковых моделях показатели температур колеблются от 75 до 85 градусов, придерживаясь средней отметки в 80.

В бенчмарке же температура взлетает и закрепляется на 95 градусах цельсия, практически не меняясь на протяжённости всего бенчмарка. Находясь на грани срабатывания механизмов защиты. При этом частоты к базовым карта сбрасывать категорически отказывается, держась на ~1200-1350 МГц.

По энергопотреблению ситуация схожа – AMD Instinct MI100 частенько упирается в свой лимит потребления: 300W. Поэтому рекомендуемый блок питания для десктопной системы с такой видеокартой 800-850W.

Энергопотребление видеокарты AMD Instinct MI100

При любой серьёзной нагрузке MI100 сразу же начинает стучаться в ограничитель.

Однако не нужно записывать это в критические изъяны – при наличии добротного блока питания, хорошего охлаждения и продуваемого корпуса эти недостатки отойдут на второй план. А вы получите высокопроизводительную видеокарту за очень разумную цену.

И вот, познакомившись со всеми положительными и отрицательными аспектами, можно подойти к итоговому выводу.

Заключение

Видеокарта AMD Instinct MI100 крупным планом

AMD Instinct MI100 однозначно хорошая карта с набором своих достоинств и издержек. Если вы готовы ограничить себя Linux-дистрибутивами и немного повозиться с ROCm – то это отличный вариант обзавестись мощным ускорителем и крупно сэкономить, относительно близлежащих конкурентов. А если вы и вовсе имеете опыт взаимодействия с “инстинктами” то этот ускоритель станет для вас наилучшим вложением по единице мощности на каждый затраченный рубль.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow