На конференции Advenced AI 2025, помимо передовых аппаратных ИИ-решений Instinct MI350X и MI355X, компания AMD также представила новую версию передового программного стека ROCm v7. AMD заявляет, что обновленное программное решение обеспечит прирост производительности искусственного интеллекта до 3,8 раз в ряде операций и расширенную поддержку управления ИИ-кластерами.
Анонс ROCm v7 на конференции Advenced AI 2025. Источник: .
Подробнее о ROCm v7
Программный стек ROCm v7, поддерживающий новейшие ускорители серии Instinct MI350 и MI355X, предлагает расширенную поддержку наиболее популярных ИИ-фреймворков (PyTorch, TensorFlow и т.д.), также добавляет работу с платформами vLLM v1, llm-d и SGLang. Кроме того, ROCm v7 также обеспечивает поддержку новейших ИИ-архитектур, таких как GEMM Autotuning, MoE, Attention и Python-кернелы, которые используются в наиболее современных и высокоэффективных языковых моделях. Еще одно нововведение ROCm v7 — поддержка новых форматов вычислений для обучения искусственного интеллекта, в частности, BF16/FP8. Это позволило 3-кратно увеличить скорость обучения языковых моделей Llama* 2, Llama* 3.1 и Qwen 1.5.
Прирост производительности в обучении ИИ наROCm v7 в сравнении с ROCm v6. Источник: .
Однако основной фокус седьмой версии ROCm нацелен именно на инференс искусственного интеллекта. К примеру, теперь ROCm v7 позволяет запускать LLM в форматах квантизации FP8, FP6 и FP4, а также вводит оптимизацию Serving-решений, встроенные функции для доработки ИИ-архитектур, оптимизацию для распределенной обработки. Благодаря всем этим нововведениям, ROCm v7 предлагает 3,5-кратный прирост скорости инференса ИИ, 3,8-кратный прирост эффективности при запуске DeepSeek R1, 3.2-кратный прирост в Llama* 3.1 70B и 3.4-кратный прирост в Qwen2-72B при сравнении с ROCm v6.
Прирост производительности в инференсе ИИ на ROCm v7 в сравнении с ROCm v6. Источник: .
Примечательно, что программный стек ROCm v7 в связке с ускорителями MI355X опережает связку Blackwell B200 с CUDA в 1,5% по пропускной способности в инференсе DeepSeek R1 (режим FP8).
Инференс на ROCm v7 с MI355X превосходит Blackwell B200 с CUDA в инференсе DeepSeek R1. Источник: .
Выводы
AMD активно занимается совершенствованием своего программного стека ROCm v7, с каждым релизом повышая планку качества и вводя новые возможности. Если ранее платформа ROCm подвергалась большой критике ввиду ограниченной совместимости и проблем с реализацией, то сейчас ROCm v7 уверенно подбирается к своему ближайшему конкуренту в лице CUDA. А с учетом того, что Instinct MI350X и MI355X имеют все шансы стать одними из самых топовых ИИ-решений на рынке, востребованность ROCm v7 может кратно увеличиться.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.