На границе 20-х годов, когда начали вырисовываться контуры нового рынка – серверных видеокарт, AMD сделала свой ход в этой многолетней борьбе и представила выдающийся по характеристикам ускоритель – Instinct MI100. Выпущенная в 2020 году на первом поколении архитектуры CDNA, эта видеокарта стала первым серьёзным вызовом доминированию CUDA. И несмотря на то что на рынке появились более новые поколения, MI100 до сих пор остаётся интересной картой для энтузиастов и профессионалов благодаря уникальному соотношению цены и возможностей.
Интересно, что MI100 изначально позиционировалась именно как научно-вычислительный ускоритель. В тот отрезок времени NVIDIA беспросветно доминировала в научных расчётах со своими Tesla V100 и A100. AMD же решила предложить альтернативу, которая была не просто быстрее, но и дешевле в пересчёте на один TFLOPS. И в отличие от NVIDIA, AMD не боялась активно поддерживать открытые стандарты и ROCm-экосистему, хотя это был рискованный выбор.
Сегодня мы с вами познакомимся поближе с первопроходцем от красной компании, и оценим его производительность в современных LLM.
Характеристики видеокарты AMD Instinct MI100
AMD Instinct MI100 построена на архитектуре CDNA первого поколения и представляет собой полное переосмысление подхода AMD к вычислительным ускорителям. В отличие от традиционного GPU, который рождается из линейки игровых видеокарт и затем адаптируется под вычисления, MI100 с самого начала проектировалась как вычислительный ускоритель. Это видно в каждой детали архитектуры. Именно с этого момента AMD начала архитектурно разделять игровые и суперкомпьютерные видеокарты: RDNA – для игр, CDNA – для вычислений.
Нутро MI100 – это 120 вычислительных блоков, каждый из которых содержит 64 унифицированных потока – Stream Cores. Итого получается 7680 универсальных ядер. К тому же AMD Instinct MI100 оснащена матричными ядрами MFMA (Matrix Fused Multiply-Add), специализированных на матричных операциях. Это совсем не то же самое, что CUDA-ядра NVIDIA. MFMA-ядра AMD в некотором смысле более гибкие: они способны работать с различными форматами данных и размерностями матриц за один такт, в то время как тензорные ядра NVIDIA заточены на конкретные операции.
Именно Instinct MI100 стала первой обладательницей матричных ядер со стороны AMD.
Производительность MI100 в разных режимах точности выглядит так: 23.1 TFLOPS в режиме FP32 и 11.5 TFLOPS в FP64. В матричных вычислениях, характерных для ML-нагрузок, заявлено до 46.1 TFLOPS (FP32 Matrix) и до 184.6 TFLOPS (FP16). Но самый впечатляющий результат даёт работа с целыми числами и низкой точностью: 184.6 TOPS в режиме INT8. Это означает, что MI100 практически ровня по производительности в INT8 NVIDIA V100 (благодаря работе с MFMA), но уже имеет встроенную поддержку более современных форматов.
Память MI100 заслуживает отдельного упоминания. Видеокарта оснащена многослойной HBM2 памятью объёмом 32 ГБ, обладающей пропускной способностью 1228 ГБ/с. Для сравнения: память NVIDIA Tesla V100, о которой мы недавно рассказывали, имеет пропускную способность на уровне 897 ГБ/с.
Однако давайте не будем опираться на сухие цифры производительности и посмотрим на видеокарту в реальных задачах.
Установка видеокарты AMD Instinct MI100 в систему и запуск на Linux
AMD Instinct MI100 занимает 2 слота, а её длина всего 267 мм. Однако не нужно обманываться, ведь это габариты без охлаждения, а поскольку MI100 не имеет собственного активного охлаждения – для использования в десктопных системах его придётся поставить самостоятельно. К примеру с нашим турбовентиляторным охлаждением её длина возрастёт до 402 мм.
Поскольку функциональность AMD Instinct MI100 ограничена Linux-дистрибутивами, мы будем использовать самый популярный из них – Ubuntu 24.04.3 LTS. Но какую версию ROCm поставить в пару к Ubuntu? Имеется ли разительная разница между старыми и новыми версиями? Давайте проведём небольшой эксперимент и выясним истину.
AMD ROCm 6 против AMD ROCm 7, какая версия лучше для Ubuntu?
В качестве подопытных будут использоваться две наиболее стабильные по нашему опыту версии веток для Instinct MI100: ROCm 7.0.0 и ROCm 6.14.14. Обе версии используются в рекомендованных AMD контейнерах.
Выборка моделей состоит из пяти популярных и уже проверенных временем моделей.
Сравнение ROCm 7.0.0 vs ROCm 6.14.14
Модель
Форматы квантизации
Скорость (т/сек)
До первого токена
Длина контекста
ROCm 7.0.0
Qwen 2.5 7B-Instruct
Q4_K_M
77.55 т/сек
0.06 сек.
4096
Llama 3.1 8B-Instruct*
Q4_K_M
88.06 т/сек
0.47 сек.
4096
Mistral 7B v0.3
Q4_K_M
74.02 т/сек
0.44 сек.
4096
gpt-oss-20b
MXFP4
124.10 т/сек Лучшая
0.08 сек.
4096
Mistralai/Devstral-small-2-2512 24B
Q4_K_M
51.41 т/сек
0.45 сек.
4096
ROCm 6.14.14
Qwen 2.5 7B-Instruct
Q4_K_M
81.41 т/сек
0.22 сек.
4096
Llama 3.1 8B-Instruct*
Q4_K_M
90.22 т/сек Быстро
0.42 сек.
4096
Mistral 7B v0.3
Q4_K_M
85.58 т/сек
0.30 сек.
4096
gpt-oss-20b
MXFP4
103.88 т/сек
0.09 сек.
4096
Mistralai/Devstral-small-2-2512 24B
Q4_K_M
51.94 т/сек
0.35 сек.
4096
Итак, если брать за метрику количество токенов в секунду:
ROCm 7.0.0 оказался быстрее только на gpt-oss-20b (MXFP4) примерно на +19.5% (124.1 vs 103.88 ток/с).
В большинстве моделей с небольшим отрывом лидирует ROCm 6.14.14, отличился только gpt-oss-20b. В плане стабильности шестая версия тоже впереди, она отработала на всех моделях без заминок. А вот 7.0 “запнулся” и выпал в ошибку на Devstral-small-2-2512 24B. Всего единожды, но всё же.
Определив фаворита среди версий программных платформ, можно приступить к тестированию.
Тест видеокарты AMD Instinct MI100 в популярных LLM на Linux
Подборка состоит из нескольких сегментов: Популярные, крупные модели, модели для кодинга и недавно появившиеся на свет LLM.
Тестирование LLM на AMD Instinct MI100
Модель
Форматы квантизации
Скорость (т/сек)
До первого токена
Длина контекста
Примечания
Базовые популярные модели
Qwen 2.5 7B-Instruct
Q4_K_M
81.41 т/сек
0.22 сек.
4096
Разумная, провереная временем модель.
Llama 3.1 8B-Instruct*
Q4_K_M
90.22 т/сек Быстро
0.42 сек.
4096
Немногословна, но дает только верные ответы.
Mistral 7B v0.3
Q4_K_M
85.58 т/сек
0.30 сек.
4096
Самая среднестатистическая из представленных, ничем не выделяется.
gpt-oss-20b
MXFP4
103.88 т/сек Лучшая
0.09 сек.
4096
Лучшая нейросетевая модель, самые подробные и быстрые ответы.
Mistralai/Devstral-small-2-2512 24B
Q4_K_M
51.94 т/сек
0.35 сек.
4096
Типовая MoE модель, пришедшая на замену Mixtral 8x7B. Дает добротные ответы.
Крупные языковые модели
Qwen 2.5 14B-Instruct
Q4_K_M
51.22 т/сек
0.06 сек.
4096
Иногда спотыкается на сложных предложениях, задумываясь на доли секунды.
Qwen3 14B
Q4_K_M
53.10 т/сек
0.08 сек.
4096
Лишена изъянов версии 2.5
Gemma 3 27B-IT-QAT
Q4_O
51.24 т/сек
0.50 сек.
4096
Грамотно и логично строит ответы, никогда не плутает в словах и не допускает ошибок
Qwen3 32B
Q4_K_M
20.75 т/сек Медленно
0.71 сек.
4096
Чрезвычайно подробные ответы, ловко жонглирует грамотными словосочетаниями как на русском, так и на английском языке.
Кодовые модели
Deepseek Coder 7B
Q4_K_M
60.76 т/сек
0.15 сек.
4096
Легко пишет простенькие программы и скрипты
Code Llama 7B*
Q4_K_M
99.98 т/сек Быстро
0.09 сек.
4096
Самый шустрый из кодеров
Granite Code 8B
Q4_K_M
81.60 т/сек
0.19 сек.
4096
Добротный кодер, но плохо понимает запросы на русском.
Недавние релизы / reasoning
DeepSeek-R1 Distilled 14B
Q4_K_M
52.70 т/сек
0.08 сек.
4096
Не очень хорошо дружит с русским языком.
DeepSeek-R1 Distilled 32B
Q4_K_M
21.54 т/сек Медленно
0.16 сек.
4096
Немногим лучше версии на 14млрд параметров
Ministral 3 14B-Instruct
Q4_K_M
71.03 т/сек
0.32 сек.
4096
Дает чрезвычайно развернутые и подробные ответы
Ministral 3 14B-Reasoning
Q4_K_M
53.76 т/сек
0.35 сек.
4096
Прекрасная модель, может тягаться с gpt-oss-20b
Все модели протестированы на AMD Instinct MI100 с контекстом 4096 токенов. Скорость генерации измеряется в токенах в секунду (т/сек). «До первого токена» показывает время ответа системы с момента начала запроса.
Как можно наблюдать результаты весьма достойны. MI100 сделала очевидный рывок в производительности по сравнению с предшествующей ей AMD Instinct MI50. А 32 гигабайта высокоскоростной памяти всё ещё достаточно для запуска масштабных языковых моделей.
Но помимо очевидных плюсов “сотка” обладает одним существенным недостатком в сопоставлении с прошлым поколением ускорителей.
Температуры и энергопотребление видеокарты AMD Instinct MI100
Новое поколение вышло куда более пылким и прожорливым чем её предшественники на GCN 5.1.
Ниже приведён график с показателями температур и энергопотребления в ходе часового стресс теста. В первой половине теста Instinct MI100 подвергалась напору крупных LLM моделей. А во второй половине – был запущен встроенный в ROCm бенчмарк.
Как можно созерцать – при нормированной нагрузке в крупных языковых моделях показатели температур колеблются от 75 до 85 градусов, придерживаясь средней отметки в 80.
В бенчмарке же температура взлетает и закрепляется на 95 градусах цельсия, практически не меняясь на протяжённости всего бенчмарка. Находясь на грани срабатывания механизмов защиты. При этом частоты к базовым карта сбрасывать категорически отказывается, держась на ~1200-1350 МГц.
По энергопотреблению ситуация схожа – AMD Instinct MI100 частенько упирается в свой лимит потребления: 300W. Поэтому рекомендуемый блок питания для десктопной системы с такой видеокартой 800-850W.
При любой серьёзной нагрузке MI100 сразу же начинает стучаться в ограничитель.
Однако не нужно записывать это в критические изъяны – при наличии добротного блока питания, хорошего охлаждения и продуваемого корпуса эти недостатки отойдут на второй план. А вы получите высокопроизводительную видеокарту за очень разумную цену.
И вот, познакомившись со всеми положительными и отрицательными аспектами, можно подойти к итоговому выводу.
Заключение
AMD Instinct MI100 однозначно хорошая карта с набором своих достоинств и издержек. Если вы готовы ограничить себя Linux-дистрибутивами и немного повозиться с ROCm – то это отличный вариант обзавестись мощным ускорителем и крупно сэкономить, относительно близлежащих конкурентов. А если вы и вовсе имеете опыт взаимодействия с “инстинктами” то этот ускоритель станет для вас наилучшим вложением по единице мощности на каждый затраченный рубль.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.