На конференции Advenced AI 2025, помимо передовых аппаратных ИИ-решений Instinct MI350X и MI355X, компания AMD также представила новую версию передового программного стека ROCm v7. AMD заявляет, что обновленное программное решение обеспечит прирост производительности искусственного интеллекта до 3,8 раз в ряде операций и расширенную поддержку управления ИИ-кластерами.
Анонс ROCm v7 на конференции Advenced AI 2025. Источник: YouTube.
Подробнее о ROCm v7
Программный стек ROCm v7, поддерживающий новейшие ускорители серии Instinct MI350 и MI355X, предлагает расширенную поддержку наиболее популярных ИИ-фреймворков (PyTorch, TensorFlow и т.д.), также добавляет работу с платформами vLLM v1, llm-d и SGLang. Кроме того, ROCm v7 также обеспечивает поддержку новейших ИИ-архитектур, таких как GEMM Autotuning, MoE, Attention и Python-кернелы, которые используются в наиболее современных и высокоэффективных языковых моделях. Еще одно нововведение ROCm v7 — поддержка новых форматов вычислений для обучения искусственного интеллекта, в частности, BF16/FP8. Это позволило 3-кратно увеличить скорость обучения языковых моделей Llama* 2, Llama* 3.1 и Qwen 1.5.
Прирост производительности в обучении ИИ наROCm v7 в сравнении с ROCm v6. Источник: AMD.
Однако основной фокус седьмой версии ROCm нацелен именно на инференс искусственного интеллекта. К примеру, теперь ROCm v7 позволяет запускать LLM в форматах квантизации FP8, FP6 и FP4, а также вводит оптимизацию Serving-решений, встроенные функции для доработки ИИ-архитектур, оптимизацию для распределенной обработки. Благодаря всем этим нововведениям, ROCm v7 предлагает 3,5-кратный прирост скорости инференса ИИ, 3,8-кратный прирост эффективности при запуске DeepSeek R1, 3.2-кратный прирост в Llama* 3.1 70B и 3.4-кратный прирост в Qwen2-72B при сравнении с ROCm v6.
Прирост производительности в инференсе ИИ на ROCm v7 в сравнении с ROCm v6. Источник: AMD.
Примечательно, что программный стек ROCm v7 в связке с ускорителями MI355X опережает связку Blackwell B200 с CUDA в 1,5% по пропускной способности в инференсе DeepSeek R1 (режим FP8).
Инференс на ROCm v7 с MI355X превосходит Blackwell B200 с CUDA в инференсе DeepSeek R1. Источник: AMD.
Выводы
AMD активно занимается совершенствованием своего программного стека ROCm v7, с каждым релизом повышая планку качества и вводя новые возможности. Если ранее платформа ROCm подвергалась большой критике ввиду ограниченной совместимости и проблем с реализацией, то сейчас ROCm v7 уверенно подбирается к своему ближайшему конкуренту в лице CUDA. А с учетом того, что Instinct MI350X и MI355X имеют все шансы стать одними из самых топовых ИИ-решений на рынке, востребованность ROCm v7 может кратно увеличиться.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.