AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ
Автор: ServerFlow
Компания AMD представила обновленный программный стек для инференса и обучения искусственного интеллекта ROCm 6.4.
Введение
11 апреля 2025 года компания AMD представила обновление программного комплекса для запуска и обучения LLM на оборудовании AMD Instinct — ROCm 6.4. Новая версия оптимизирована для работы с новейшими языковыми моделями и передовыми ИИ-фреймворками с модульными инструментами и поддержкой другого современного функционала. Всего было добавлено 5 крупных нововведений.
Новые оптимизированные контейнеры ИИ
Современные большие языковые модели постоянно совершенствуются, ввиду чего усложняется настройка и обслуживание оптимизированных сред обучения и инференса искусственного интеллекта. Чтобы исключить возможные ошибки и ускорение работы с LLM, AMD добавила в ROCm 6.4 набор улучшенный контейнеров для ввода и вывода ИИ на ускорителях AMD Instinct. Ниже приведен список обновленных контейнеров:
vLLM — контейнер для логического вывода нейросетей с открытым исходным, обеспечивает низкую задержку и поддерживает plug-and-play. Подходит для инференса моделей Gemma 3, Llama*, Mistral, Cohere и других LLM.
SGLang — контейнер, оптимизированный для инференса передовой языковой модели DeepSeek R1 и различных размышляющих ИИ-агентов. Предлагает высочайшую производительность и скорость вывода благодаря использованию открытой ИИ-библиотеки DeepGEMM, поддержки режима квантизации FP8, конвейера ocker и и многоканального внимания.
PyTorch — контейнер для увеличения производительности популярного репозитория с поддержкой расширенных механизмов внимания, благодаря чему пользователи могут удобно обучать передовые LLM на ИИ-ускорителях AMD Instinct MI300X. Новая версия контейнера оптимизирована для работы с моделями семейства Llama* 3.1 (8B, 70B), Llama* 2 (70B) и FLUX.1-dev.
Megatron-LM — контейнер, оптимизированный для работы с программным стеком ROCm 6.4, предназначенный для наиболее эффективного обучения языковых моделей с большим объемом параметров, вроде Llama* 3.1, Llama* 2 и DeepSeek-V2-Lite.
Вышеперечисленные контейнеры также поддерживают предварительно настроенные версии современных LLM, что значительно сокращает время на инференс нейросетей. Для крупных команд разработчиков ИИ контейнеры будут полезны для запуска тестирования, обслуживания и масштабирования новых нейросетей.
Расширенные возможности для PyTorch
Чтобы добавить поддержку наиболее эффективных механизмов внимания для работы с передовыми LLM, в ROCm 6.4 предлагает увеличенную производительность инференса искусственного интеллекта через репозиторий PyTorch, а также дополнительные функциональные возможности, вроде оптимизации механизма внимания Flex, TopK и масштабирования точечного внимания (SDPA). Вот какие улучшения предлагает новая версия ROCm 6.4:
Гибкое внимание — обеспечивает значительный прирост производительности по сравнению с использованием программного стека ROCm 6.3, значительно сокращая время обучения моделей и снижая нагрузку на память — особенно в рабочих нагрузках LLM, которые зависят от продвинутых механизмов внимания.
TopK — операции TopK теперь выполняются в 3 раза быстрее, ускоряя время отклика нейросети при сохранении качества сгенерированных ответов.
SDPA — предлагает более плавный вывод сгенерированных ответов при запросах с длинным контекстом.
Благодаря использованию новых функций, разработчики могут значительно сократить время обучения LLM, при этом снизив требования к вычислительной инфраструктуре и сэкономив больше ресурсов. Впоследствии эти ресурсы можно направить на развитие ключевых направлений, вроде создания новых нейросетей или более тонкой настройки существующих моделей.
Оптимизированные сборки vLLM и SGLang
Для обеспечения низкой задержки и увеличения производительности локально развертываемых LLM компания AMD добавила в ROCm 6.4 оптимизированные сборки vLLM и SGLang, которые настроены для работы с ускорителями. Новые сборки поддерживают работу с новейшими ИИ-моделями, такими как Grok, DeepSeek R1, Gemma 3, Llama* 3.1 (8B, 70B, 405B), позволяя разработчикам этих нейросетей внедрять логические конвейеры в реальном времени с минимальной настройкой или доработкой. К тому же, логические конвейеры получают обновления на еженедельной основе, тем самым нейросети всегда остаются на пике производительности, стабильности и обеспечивают минимальные задержки. К примеру, сборка SGLang при работе с китайской нейросетью DeepSeek R1 увеличивает пропускную способность до рекордных показателей.
Новые функции управления GPU-кластером
Управление GPU-нагрузками в Kubernetes-инфраструктуре часто требует ручного вмешательства: обновление драйверов, контроль системы во избежания простоев и мониторинг состояния вычислительных устройств нередко сопровождаются рисками для производительности и стабильности GPU-кластеров для работы с искусственным интеллектом. Новая функция AMD GPU Operator в составе программного стека ROCm 6.4 значительно упрощает и автоматизирует каждый из этих процессов в режиме реального времени, а также оптимизирует все кластерные операции. Благодаря AMD GPU Operator, системные администраторы ИИ-инфраструктур могут выполнять обновления, масштабировать кластеры с минимальными перебоями в работе, а также удобно выводить большие языковые модели в безопасные среды с возможностью постоянного мониторинга. Ввиду этих улучшений, пользователи вычислительных ресурсов AMD Instinct получают массу преимущества, например, увеличение доступности мощностей и снижение различных операционных рисков. Новые функции включают в себя:
Автоматическое оцепление, слив, перезагрузку для установки текущих обновлений.
Расширенная поддержка операционных систем Red Hat OpenShift 4.16–4.17 и Ubuntu 22.04/24.04, обеспечивая совместимость с современными облачными и корпоративными средами.
Экспортер показателей устройств на базе Prometheus для отслеживания работоспособности системы в режиме реального времени.
Обновленные драйверы и программное обеспечение
AMD заявляет, что монолитные драйверные стеки уже давно канули в лету, поскольку они сковывают возможности разработчиков, мешая созданию передовых моделей искусственного интеллекта из-за долгих циклов обновлений, снижения совместимости с оборудованием и увеличения рисков обслуживания. Чтобы устранить эти недостатки, в программном стеке ROCm 6.4 представлена революционная модульная система драйверов для GPU Instinct, где ядро операционной системы и пользовательские компоненты ROCm существуют как независимые слои. Вот какие возможности предлагают новые драйверы:
Автономность обновлений — системные администраторы ИИ-инфраструктур теперь могут патчить драйверы ядра или обновлять библиотеки ROCm полностью независимо друг от друга.
Гарантия стабильности — срок совместимости версий увеличен вдвое (до 12 месяцев), что снижает частоту обязательных миграций драйверов.
Гибкое развертывание — драйвер адаптируется под любые сценарии использования, от голого железа без ПО и надстроек до контейнерных оркестраторов и проприетарных решений ISV.
Такие модификации устраняют “эффект домино” при изменениях, упрощая масштабирование кластеров искусственного интеллекта на GPU-ускорителях, устраняя вынужденную остановку всех вычислительных процессов один за другим. Это особенно полезно для облачных провайдеров, государственных и коммерческих вычислительных инфраструктур для ИИ со строгими условиями обслуживания клиентов.
Дополнительный инструмент
В качестве бонуса, AMD также добавила в ROCm 6.4 особый инструмент под названием AITER — высокопроизводительную библиотеку для логического вывода с готовыми, предварительно оптимизированными ядрами, не требующими ручной настройки. Преимущества системы AITER включают:
17-кратное ускорение выполнения декодера.
14-кратный прирост внимания сразу в нескольких развернутых языковых моделях.
2-кратное увеличение пропускной способности запущенных LLM.
Выводы
AMD проделала масштабную работу по оптимизации своего программного стека ROCm, устранив все проблемы версии 6.3, которая в декабре 2024 года была раскритикована аналитической компанией SemiAnalysis. Стоит отметить, что обновление ROCm 6.4 является частью новой стратегии AMD, которая направлена на усиление компании в сегменте искусственного интеллекта и навязывание активной конкуренции с Nvidia, которая в настоящее время очень уязвима из-за санкций на поставку H20 в Китай и выхода ИИ-ускорителей Huawei Ascend 920.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
AMD представляет ROCm 6.4 — новую версию программного стека для работы с ИИ
11 апреля 2025 года компания AMD представила обновление программного комплекса для запуска и обучения LLM на оборудовании AMD Instinct — ROCm 6.4. Новая версия оптимизирована для работы с новейшими языковыми моделями и передовыми ИИ-фреймворками с модульными инструментами и поддержкой другого современного функционала. Всего было добавлено 5 крупных нововведений.
Новые оптимизированные контейнеры ИИ
Современные большие языковые модели постоянно совершенствуются, ввиду чего усложняется настройка и обслуживание оптимизированных сред обучения и инференса искусственного интеллекта. Чтобы исключить возможные ошибки и ускорение работы с LLM, AMD добавила в ROCm 6.4 набор улучшенный контейнеров для ввода и вывода ИИ на ускорителях AMD Instinct. Ниже приведен список обновленных контейнеров:
vLLM — контейнер для логического вывода нейросетей с открытым исходным, обеспечивает низкую задержку и поддерживает plug-and-play. Подходит для инференса моделей Gemma 3, Llama*, Mistral, Cohere и других LLM.
SGLang — контейнер, оптимизированный для инференса передовой языковой модели DeepSeek R1 и различных размышляющих ИИ-агентов. Предлагает высочайшую производительность и скорость вывода благодаря использованию открытой ИИ-библиотеки DeepGEMM, поддержки режима квантизации FP8, конвейера ocker и и многоканального внимания.
PyTorch — контейнер для увеличения производительности популярного репозитория с поддержкой расширенных механизмов внимания, благодаря чему пользователи могут удобно обучать передовые LLM на ИИ-ускорителях AMD Instinct MI300X. Новая версия контейнера оптимизирована для работы с моделями семейства Llama* 3.1 (8B, 70B), Llama* 2 (70B) и FLUX.1-dev.
Megatron-LM — контейнер, оптимизированный для работы с программным стеком ROCm 6.4, предназначенный для наиболее эффективного обучения языковых моделей с большим объемом параметров, вроде Llama* 3.1, Llama* 2 и DeepSeek-V2-Lite.
Вышеперечисленные контейнеры также поддерживают предварительно настроенные версии современных LLM, что значительно сокращает время на инференс нейросетей. Для крупных команд разработчиков ИИ контейнеры будут полезны для запуска тестирования, обслуживания и масштабирования новых нейросетей.
Расширенные возможности для PyTorch
Чтобы добавить поддержку наиболее эффективных механизмов внимания для работы с передовыми LLM, в ROCm 6.4 предлагает увеличенную производительность инференса искусственного интеллекта через репозиторий PyTorch, а также дополнительные функциональные возможности, вроде оптимизации механизма внимания Flex, TopK и масштабирования точечного внимания (SDPA). Вот какие улучшения предлагает новая версия ROCm 6.4:
Гибкое внимание — обеспечивает значительный прирост производительности по сравнению с использованием программного стека ROCm 6.3, значительно сокращая время обучения моделей и снижая нагрузку на память — особенно в рабочих нагрузках LLM, которые зависят от продвинутых механизмов внимания.
TopK — операции TopK теперь выполняются в 3 раза быстрее, ускоряя время отклика нейросети при сохранении качества сгенерированных ответов.
SDPA — предлагает более плавный вывод сгенерированных ответов при запросах с длинным контекстом.
Благодаря использованию новых функций, разработчики могут значительно сократить время обучения LLM, при этом снизив требования к вычислительной инфраструктуре и сэкономив больше ресурсов. Впоследствии эти ресурсы можно направить на развитие ключевых направлений, вроде создания новых нейросетей или более тонкой настройки существующих моделей.
Оптимизированные сборки vLLM и SGLang
Для обеспечения низкой задержки и увеличения производительности локально развертываемых LLM компания AMD добавила в ROCm 6.4 оптимизированные сборки vLLM и SGLang, которые настроены для работы с ускорителями. Новые сборки поддерживают работу с новейшими ИИ-моделями, такими как Grok, DeepSeek R1, Gemma 3, Llama* 3.1 (8B, 70B, 405B), позволяя разработчикам этих нейросетей внедрять логические конвейеры в реальном времени с минимальной настройкой или доработкой. К тому же, логические конвейеры получают обновления на еженедельной основе, тем самым нейросети всегда остаются на пике производительности, стабильности и обеспечивают минимальные задержки. К примеру, сборка SGLang при работе с китайской нейросетью DeepSeek R1 увеличивает пропускную способность до рекордных показателей.
Новые функции управления GPU-кластером
Управление GPU-нагрузками в Kubernetes-инфраструктуре часто требует ручного вмешательства: обновление драйверов, контроль системы во избежания простоев и мониторинг состояния вычислительных устройств нередко сопровождаются рисками для производительности и стабильности GPU-кластеров для работы с искусственным интеллектом. Новая функция AMD GPU Operator в составе программного стека ROCm 6.4 значительно упрощает и автоматизирует каждый из этих процессов в режиме реального времени, а также оптимизирует все кластерные операции. Благодаря AMD GPU Operator, системные администраторы ИИ-инфраструктур могут выполнять обновления, масштабировать кластеры с минимальными перебоями в работе, а также удобно выводить большие языковые модели в безопасные среды с возможностью постоянного мониторинга. Ввиду этих улучшений, пользователи вычислительных ресурсов AMD Instinct получают массу преимущества, например, увеличение доступности мощностей и снижение различных операционных рисков. Новые функции включают в себя:
Автоматическое оцепление, слив, перезагрузку для установки текущих обновлений.
Расширенная поддержка операционных систем Red Hat OpenShift 4.16–4.17 и Ubuntu 22.04/24.04, обеспечивая совместимость с современными облачными и корпоративными средами.
Экспортер показателей устройств на базе Prometheus для отслеживания работоспособности системы в режиме реального времени.
Обновленные драйверы и программное обеспечение
AMD заявляет, что монолитные драйверные стеки уже давно канули в лету, поскольку они сковывают возможности разработчиков, мешая созданию передовых моделей искусственного интеллекта из-за долгих циклов обновлений, снижения совместимости с оборудованием и увеличения рисков обслуживания. Чтобы устранить эти недостатки, в программном стеке ROCm 6.4 представлена революционная модульная система драйверов для GPU Instinct, где ядро операционной системы и пользовательские компоненты ROCm существуют как независимые слои. Вот какие возможности предлагают новые драйверы:
Автономность обновлений — системные администраторы ИИ-инфраструктур теперь могут патчить драйверы ядра или обновлять библиотеки ROCm полностью независимо друг от друга.
Гарантия стабильности — срок совместимости версий увеличен вдвое (до 12 месяцев), что снижает частоту обязательных миграций драйверов.
Гибкое развертывание — драйвер адаптируется под любые сценарии использования, от голого железа без ПО и надстроек до контейнерных оркестраторов и проприетарных решений ISV.
Такие модификации устраняют “эффект домино” при изменениях, упрощая масштабирование кластеров искусственного интеллекта на GPU-ускорителях, устраняя вынужденную остановку всех вычислительных процессов один за другим. Это особенно полезно для облачных провайдеров, государственных и коммерческих вычислительных инфраструктур для ИИ со строгими условиями обслуживания клиентов.
Дополнительный инструмент
В качестве бонуса, AMD также добавила в ROCm 6.4 особый инструмент под названием AITER — высокопроизводительную библиотеку для логического вывода с готовыми, предварительно оптимизированными ядрами, не требующими ручной настройки. Преимущества системы AITER включают:
17-кратное ускорение выполнения декодера.
14-кратный прирост внимания сразу в нескольких развернутых языковых моделях.
2-кратное увеличение пропускной способности запущенных LLM.
Выводы
AMD проделала масштабную работу по оптимизации своего программного стека ROCm, устранив все проблемы версии 6.3, которая в декабре 2024 года была раскритикована аналитической компанией SemiAnalysis. Стоит отметить, что обновление ROCm 6.4 является частью новой стратегии AMD, которая направлена на усиление компании в сегменте искусственного интеллекта и навязывание активной конкуренции с Nvidia, которая в настоящее время очень уязвима из-за санкций на поставку H20 в Китай и выхода ИИ-ускорителей Huawei Ascend 920.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.