Top.Mail.Ru
AMD представила ROCm v7 | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

AMD представила ROCm v7

~ 2 мин
66
Простой
Новости
AMD представила ROCm v7

Введение

На конференции Advenced AI 2025, помимо передовых аппаратных ИИ-решений Instinct MI350X и MI355X, компания AMD также представила новую версию передового программного стека ROCm v7. AMD заявляет, что обновленное программное решение обеспечит прирост производительности искусственного интеллекта до 3,8 раз в ряде операций и расширенную поддержку управления ИИ-кластерами.

Анонс ROCm v7
Анонс ROCm v7 на конференции Advenced AI 2025. Источник: YouTube

Подробнее о ROCm v7

Программный стек ROCm v7, поддерживающий новейшие ускорители серии Instinct MI350 и MI355X, предлагает расширенную поддержку наиболее популярных ИИ-фреймворков (PyTorch, TensorFlow и т.д.), также добавляет работу с платформами vLLM v1, llm-d и SGLang. Кроме того, ROCm v7 также обеспечивает поддержку новейших ИИ-архитектур, таких как GEMM Autotuning, MoE, Attention и Python-кернелы, которые используются в наиболее современных и высокоэффективных языковых моделях. Еще одно нововведение ROCm v7 — поддержка новых форматов вычислений для обучения искусственного интеллекта, в частности, BF16/FP8. Это позволило 3-кратно увеличить скорость обучения языковых моделей Llama* 2, Llama* 3.1 и Qwen 1.5. 

Сравнение обучения на ROCm v7 и ROCm v6
Прирост производительности в обучении ИИ наROCm v7 в сравнении с ROCm v6. Источник: AMD.

Однако основной фокус седьмой версии ROCm нацелен именно на инференс искусственного интеллекта. К примеру, теперь ROCm v7 позволяет запускать LLM в форматах квантизации FP8, FP6 и FP4, а также вводит оптимизацию Serving-решений, встроенные функции для доработки ИИ-архитектур, оптимизацию для распределенной обработки. Благодаря всем этим нововведениям, ROCm v7 предлагает 3,5-кратный прирост скорости инференса ИИ, 3,8-кратный прирост эффективности при запуске DeepSeek R1, 3.2-кратный прирост в Llama* 3.1 70B и 3.4-кратный прирост в Qwen2-72B при сравнении с ROCm v6. 

Сравнение инференса на ROCm v7 и ROCm v6
Прирост производительности в инференсе ИИ на ROCm v7 в сравнении с ROCm v6. Источник: AMD.

Примечательно, что программный стек ROCm v7 в связке с ускорителями MI355X опережает связку Blackwell B200 с CUDA в 1,5% по пропускной способности в инференсе DeepSeek R1 (режим FP8).

Сравнение инференса на ROCm v7 и CUDA
Инференс на ROCm v7 с MI355X превосходит Blackwell B200 с CUDA в инференсе DeepSeek R1. Источник: AMD.

Выводы

AMD активно занимается совершенствованием своего программного стека ROCm v7, с каждым релизом повышая планку качества и вводя новые возможности. Если ранее платформа ROCm подвергалась большой критике ввиду ограниченной совместимости и проблем с реализацией, то сейчас ROCm v7 уверенно подбирается к своему ближайшему конкуренту в лице CUDA. А с учетом того, что Instinct MI350X и MI355X имеют все шансы стать одними из самых топовых ИИ-решений на рынке, востребованность ROCm v7 может кратно увеличиться.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)