Top.Mail.Ru
AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ

Автор:

AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ

Компания AMD представила обновленный программный стек для инференса и обучения искусственного интеллекта ROCm 6.4.

Введение 11 апреля 2025 года компания AMD представила обновление программного комплекса для запуска и обучения LLM на оборудовании AMD Instinct — ROCm 6.4. Новая версия оптимизирована для работы с новейшими языковыми моделями и передовыми ИИ-фреймворками с модульными инструментами и поддержкой другого современного функционала. Всего было добавлено 5 крупных нововведений. Новые оптимизированные контейнеры ИИ Современные большие языковые модели постоянно совершенствуются, ввиду чего усложняется настройка и обслуживание оптимизированных сред обучения и инференса искусственного интеллекта. Чтобы исключить возможные ошибки и ускорение работы с LLM, AMD добавила в ROCm 6.4 набор улучшенный контейнеров для ввода и вывода ИИ на ускорителях AMD Instinct. Ниже приведен список обновленных контейнеров: vLLM — контейнер для логического вывода нейросетей с открытым исходным, обеспечивает низкую задержку и поддерживает plug-and-play. Подходит для инференса моделей Gemma 3, Llama*, Mistral, Cohere и других LLM. SGLang — контейнер, оптимизированный для инференса передовой языковой модели DeepSeek R1 и различных размышляющих ИИ-агентов. Предлагает высочайшую производительность и скорость вывода благодаря использованию открытой ИИ-библиотеки DeepGEMM, поддержки режима квантизации FP8, конвейера ocker и и многоканального внимания.  PyTorch — контейнер для увеличения производительности популярного репозитория с поддержкой расширенных механизмов внимания, благодаря чему пользователи могут удобно обучать передовые LLM на ИИ-ускорителях AMD Instinct MI300X. Новая версия контейнера оптимизирована для работы с моделями семейства Llama* 3.1 (8B, 70B), Llama* 2 (70B) и FLUX.1-dev. Megatron-LM — контейнер, оптимизированный для работы с программным стеком ROCm 6.4, предназначенный для наиболее эффективного обучения языковых моделей с большим объемом параметров, вроде Llama* 3.1, Llama* 2 и DeepSeek-V2-Lite. Вышеперечисленные контейнеры также поддерживают предварительно настроенные версии современных LLM, что значительно сокращает время на инференс нейросетей. Для крупных команд разработчиков ИИ контейнеры будут полезны для запуска тестирования, обслуживания и масштабирования новых нейросетей. Расширенные возможности для PyTorch Чтобы добавить поддержку наиболее эффективных механизмов внимания для работы с передовыми LLM, в ROCm 6.4 предлагает увеличенную производительность инференса искусственного интеллекта через репозиторий PyTorch, а также дополнительные функциональные возможности, вроде оптимизации механизма внимания Flex, TopK и масштабирования точечного внимания (SDPA). Вот какие улучшения предлагает новая версия ROCm 6.4: Гибкое внимание — обеспечивает значительный прирост производительности по сравнению с использованием программного стека ROCm 6.3, значительно сокращая время обучения моделей и снижая нагрузку на память — особенно в рабочих нагрузках LLM, которые зависят от продвинутых механизмов внимания. TopK — операции TopK теперь выполняются в 3 раза быстрее, ускоряя время отклика нейросети при сохранении качества сгенерированных ответов. SDPA — предлагает более плавный вывод сгенерированных ответов при запросах с длинным контекстом. Благодаря использованию новых функций, разработчики могут значительно сократить время обучения LLM, при этом снизив требования к вычислительной инфраструктуре и сэкономив больше ресурсов. Впоследствии эти ресурсы можно направить на развитие ключевых направлений, вроде создания новых нейросетей или более тонкой настройки существующих моделей.  Оптимизированные сборки vLLM и SGLang Для обеспечения низкой задержки и увеличения производительности локально развертываемых LLM компания AMD добавила в ROCm 6.4 оптимизированные сборки vLLM и SGLang, которые настроены для работы с ускорителями. Новые сборки поддерживают работу с новейшими ИИ-моделями, такими как Grok, DeepSeek R1, Gemma 3, Llama* 3.1 (8B, 70B, 405B), позволяя разработчикам этих нейросетей внедрять логические конвейеры в реальном времени с минимальной настройкой или доработкой. К тому же, логические конвейеры получают обновления на еженедельной основе, тем самым нейросети всегда остаются на пике производительности, стабильности и обеспечивают минимальные задержки. К примеру, сборка SGLang при работе с китайской нейросетью DeepSeek R1 увеличивает пропускную способность до рекордных показателей.  Новые функции управления GPU-кластером Управление GPU-нагрузками в Kubernetes-инфраструктуре часто требует ручного вмешательства: обновление драйверов, контроль системы во избежания простоев и мониторинг состояния вычислительных устройств нередко сопровождаются рисками для производительности и стабильности GPU-кластеров для работы с искусственным интеллектом. Новая функция AMD GPU Operator в составе программного стека ROCm 6.4 значительно упрощает и автоматизирует каждый из этих процессов в режиме реального времени, а также оптимизирует все кластерные операции. Благодаря AMD GPU Operator, системные администраторы ИИ-инфраструктур могут выполнять обновления, масштабировать кластеры с минимальными перебоями в работе, а также удобно выводить большие языковые модели в безопасные среды с возможностью постоянного мониторинга. Ввиду этих улучшений, пользователи вычислительных ресурсов AMD Instinct получают массу преимущества, например, увеличение доступности мощностей и снижение различных операционных рисков. Новые функции включают в себя: Автоматическое оцепление, слив, перезагрузку для установки текущих обновлений. Расширенная поддержка операционных систем Red Hat OpenShift 4.16–4.17 и Ubuntu 22.04/24.04, обеспечивая совместимость с современными облачными и корпоративными средами. Экспортер показателей устройств на базе Prometheus для отслеживания работоспособности системы в режиме реального времени. Обновленные драйверы и программное обеспечение AMD заявляет, что монолитные драйверные стеки уже давно канули в лету, поскольку они сковывают возможности разработчиков, мешая созданию передовых моделей искусственного интеллекта из-за долгих циклов обновлений, снижения совместимости с оборудованием и увеличения рисков обслуживания. Чтобы устранить эти недостатки, в программном стеке ROCm 6.4 представлена революционная модульная система драйверов для GPU Instinct, где ядро операционной системы и пользовательские компоненты ROCm существуют как независимые слои. Вот какие возможности предлагают новые драйверы: Автономность обновлений — системные администраторы ИИ-инфраструктур теперь могут патчить драйверы ядра или обновлять библиотеки ROCm полностью независимо друг от друга. Гарантия стабильности — срок совместимости версий увеличен вдвое (до 12 месяцев), что снижает частоту обязательных миграций драйверов. Гибкое развертывание — драйвер адаптируется под любые сценарии использования, от голого железа без ПО и надстроек до контейнерных оркестраторов и проприетарных решений ISV. Такие модификации устраняют “эффект домино” при изменениях, упрощая масштабирование кластеров искусственного интеллекта на GPU-ускорителях, устраняя вынужденную остановку всех вычислительных процессов один за другим. Это особенно полезно для облачных провайдеров, государственных и коммерческих вычислительных инфраструктур для ИИ со строгими условиями обслуживания клиентов. Дополнительный инструмент В качестве бонуса, AMD также добавила в ROCm 6.4 особый инструмент под названием AITER — высокопроизводительную библиотеку для логического вывода с готовыми, предварительно оптимизированными ядрами, не требующими ручной настройки. Преимущества системы AITER включают: 17-кратное ускорение выполнения декодера. 14-кратный прирост внимания сразу в нескольких развернутых языковых моделях. 2-кратное увеличение пропускной способности запущенных LLM. Выводы AMD проделала масштабную работу по оптимизации своего программного стека ROCm, устранив все проблемы версии 6.3, которая в декабре 2024 года была раскритикована аналитической компанией SemiAnalysis. Стоит отметить, что обновление ROCm 6.4 является частью новой стратегии AMD, которая направлена на усиление компании в сегменте искусственного интеллекта и навязывание активной конкуренции с Nvidia, которая в настоящее время очень уязвима из-за санкций на поставку H20 в Китай и выхода ИИ-ускорителей Huawei Ascend 920. *LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена **Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ

~ 5 мин
134
Средний
Новости
AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ

Введение

11 апреля 2025 года компания AMD представила обновление программного комплекса для запуска и обучения LLM на оборудовании AMD Instinct — ROCm 6.4. Новая версия оптимизирована для работы с новейшими языковыми моделями и передовыми ИИ-фреймворками с модульными инструментами и поддержкой другого современного функционала. Всего было добавлено 5 крупных нововведений.

Новые оптимизированные контейнеры ИИ

Современные большие языковые модели постоянно совершенствуются, ввиду чего усложняется настройка и обслуживание оптимизированных сред обучения и инференса искусственного интеллекта. Чтобы исключить возможные ошибки и ускорение работы с LLM, AMD добавила в ROCm 6.4 набор улучшенный контейнеров для ввода и вывода ИИ на ускорителях AMD Instinct. Ниже приведен список обновленных контейнеров:
  • vLLM — контейнер для логического вывода нейросетей с открытым исходным, обеспечивает низкую задержку и поддерживает plug-and-play. Подходит для инференса моделей Gemma 3, Llama*, Mistral, Cohere и других LLM.
  • SGLang — контейнер, оптимизированный для инференса передовой языковой модели DeepSeek R1 и различных размышляющих ИИ-агентов. Предлагает высочайшую производительность и скорость вывода благодаря использованию открытой ИИ-библиотеки DeepGEMM, поддержки режима квантизации FP8, конвейера ocker и и многоканального внимания. 
  • PyTorch — контейнер для увеличения производительности популярного репозитория с поддержкой расширенных механизмов внимания, благодаря чему пользователи могут удобно обучать передовые LLM на ИИ-ускорителях AMD Instinct MI300X. Новая версия контейнера оптимизирована для работы с моделями семейства Llama* 3.1 (8B, 70B), Llama* 2 (70B) и FLUX.1-dev.
  • Megatron-LM — контейнер, оптимизированный для работы с программным стеком ROCm 6.4, предназначенный для наиболее эффективного обучения языковых моделей с большим объемом параметров, вроде Llama* 3.1, Llama* 2 и DeepSeek-V2-Lite.
Вышеперечисленные контейнеры также поддерживают предварительно настроенные версии современных LLM, что значительно сокращает время на инференс нейросетей. Для крупных команд разработчиков ИИ контейнеры будут полезны для запуска тестирования, обслуживания и масштабирования новых нейросетей.

Расширенные возможности для PyTorch

Чтобы добавить поддержку наиболее эффективных механизмов внимания для работы с передовыми LLM, в ROCm 6.4 предлагает увеличенную производительность инференса искусственного интеллекта через репозиторий PyTorch, а также дополнительные функциональные возможности, вроде оптимизации механизма внимания Flex, TopK и масштабирования точечного внимания (SDPA). Вот какие улучшения предлагает новая версия ROCm 6.4:
  • Гибкое внимание — обеспечивает значительный прирост производительности по сравнению с использованием программного стека ROCm 6.3, значительно сокращая время обучения моделей и снижая нагрузку на память — особенно в рабочих нагрузках LLM, которые зависят от продвинутых механизмов внимания.
  • TopK — операции TopK теперь выполняются в 3 раза быстрее, ускоряя время отклика нейросети при сохранении качества сгенерированных ответов.
  • SDPA — предлагает более плавный вывод сгенерированных ответов при запросах с длинным контекстом.
Благодаря использованию новых функций, разработчики могут значительно сократить время обучения LLM, при этом снизив требования к вычислительной инфраструктуре и сэкономив больше ресурсов. Впоследствии эти ресурсы можно направить на развитие ключевых направлений, вроде создания новых нейросетей или более тонкой настройки существующих моделей. 

Оптимизированные сборки vLLM и SGLang

Для обеспечения низкой задержки и увеличения производительности локально развертываемых LLM компания AMD добавила в ROCm 6.4 оптимизированные сборки vLLM и SGLang, которые настроены для работы с ускорителями. Новые сборки поддерживают работу с новейшими ИИ-моделями, такими как Grok, DeepSeek R1, Gemma 3, Llama* 3.1 (8B, 70B, 405B), позволяя разработчикам этих нейросетей внедрять логические конвейеры в реальном времени с минимальной настройкой или доработкой. К тому же, логические конвейеры получают обновления на еженедельной основе, тем самым нейросети всегда остаются на пике производительности, стабильности и обеспечивают минимальные задержки. К примеру, сборка SGLang при работе с китайской нейросетью DeepSeek R1 увеличивает пропускную способность до рекордных показателей. 

Новые функции управления GPU-кластером

Управление GPU-нагрузками в Kubernetes-инфраструктуре часто требует ручного вмешательства: обновление драйверов, контроль системы во избежания простоев и мониторинг состояния вычислительных устройств нередко сопровождаются рисками для производительности и стабильности GPU-кластеров для работы с искусственным интеллектом. Новая функция AMD GPU Operator в составе программного стека ROCm 6.4 значительно упрощает и автоматизирует каждый из этих процессов в режиме реального времени, а также оптимизирует все кластерные операции. Благодаря AMD GPU Operator, системные администраторы ИИ-инфраструктур могут выполнять обновления, масштабировать кластеры с минимальными перебоями в работе, а также удобно выводить большие языковые модели в безопасные среды с возможностью постоянного мониторинга. Ввиду этих улучшений, пользователи вычислительных ресурсов AMD Instinct получают массу преимущества, например, увеличение доступности мощностей и снижение различных операционных рисков. Новые функции включают в себя:
  • Автоматическое оцепление, слив, перезагрузку для установки текущих обновлений.
  • Расширенная поддержка операционных систем Red Hat OpenShift 4.16–4.17 и Ubuntu 22.04/24.04, обеспечивая совместимость с современными облачными и корпоративными средами.
  • Экспортер показателей устройств на базе Prometheus для отслеживания работоспособности системы в режиме реального времени.

Обновленные драйверы и программное обеспечение

AMD заявляет, что монолитные драйверные стеки уже давно канули в лету, поскольку они сковывают возможности разработчиков, мешая созданию передовых моделей искусственного интеллекта из-за долгих циклов обновлений, снижения совместимости с оборудованием и увеличения рисков обслуживания. Чтобы устранить эти недостатки, в программном стеке ROCm 6.4 представлена революционная модульная система драйверов для GPU Instinct, где ядро операционной системы и пользовательские компоненты ROCm существуют как независимые слои. Вот какие возможности предлагают новые драйверы:
  • Автономность обновлений — системные администраторы ИИ-инфраструктур теперь могут патчить драйверы ядра или обновлять библиотеки ROCm полностью независимо друг от друга.
  • Гарантия стабильности — срок совместимости версий увеличен вдвое (до 12 месяцев), что снижает частоту обязательных миграций драйверов.
  • Гибкое развертывание — драйвер адаптируется под любые сценарии использования, от голого железа без ПО и надстроек до контейнерных оркестраторов и проприетарных решений ISV.
Такие модификации устраняют “эффект домино” при изменениях, упрощая масштабирование кластеров искусственного интеллекта на GPU-ускорителях, устраняя вынужденную остановку всех вычислительных процессов один за другим. Это особенно полезно для облачных провайдеров, государственных и коммерческих вычислительных инфраструктур для ИИ со строгими условиями обслуживания клиентов.

Дополнительный инструмент

В качестве бонуса, AMD также добавила в ROCm 6.4 особый инструмент под названием AITER — высокопроизводительную библиотеку для логического вывода с готовыми, предварительно оптимизированными ядрами, не требующими ручной настройки. Преимущества системы AITER включают:
  • 17-кратное ускорение выполнения декодера.
  • 14-кратный прирост внимания сразу в нескольких развернутых языковых моделях.
  • 2-кратное увеличение пропускной способности запущенных LLM.

Выводы

AMD проделала масштабную работу по оптимизации своего программного стека ROCm, устранив все проблемы версии 6.3, которая в декабре 2024 года была раскритикована аналитической компанией SemiAnalysis. Стоит отметить, что обновление ROCm 6.4 является частью новой стратегии AMD, которая направлена на усиление компании в сегменте искусственного интеллекта и навязывание активной конкуренции с Nvidia, которая в настоящее время очень уязвима из-за санкций на поставку H20 в Китай и выхода ИИ-ускорителей Huawei Ascend 920.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)