11 апреля 2025 года компания AMD представила обновление программного комплекса для запуска и обучения LLM на оборудовании AMD Instinct — ROCm 6.4. Новая версия оптимизирована для работы с новейшими языковыми моделями и передовыми ИИ-фреймворками с модульными инструментами и поддержкой другого современного функционала. Всего было добавлено 5 крупных нововведений.
Новые оптимизированные контейнеры ИИ
Современные большие языковые модели постоянно совершенствуются, ввиду чего усложняется настройка и обслуживание оптимизированных сред обучения и инференса искусственного интеллекта. Чтобы исключить возможные ошибки и ускорение работы с LLM, AMD добавила в ROCm 6.4 набор улучшенный контейнеров для ввода и вывода ИИ на ускорителях AMD Instinct. Ниже приведен список обновленных контейнеров:
vLLM — контейнер для логического вывода нейросетей с открытым исходным, обеспечивает низкую задержку и поддерживает plug-and-play. Подходит для инференса моделей Gemma 3, Llama*, Mistral, Cohere и других LLM.
SGLang — контейнер, оптимизированный для инференса передовой языковой модели DeepSeek R1 и различных размышляющих ИИ-агентов. Предлагает высочайшую производительность и скорость вывода благодаря использованию открытой ИИ-библиотеки DeepGEMM, поддержки режима квантизации FP8, конвейера ocker и и многоканального внимания.
PyTorch — контейнер для увеличения производительности популярного репозитория с поддержкой расширенных механизмов внимания, благодаря чему пользователи могут удобно обучать передовые LLM на ИИ-ускорителях AMD Instinct MI300X. Новая версия контейнера оптимизирована для работы с моделями семейства Llama* 3.1 (8B, 70B), Llama* 2 (70B) и FLUX.1-dev.
Megatron-LM — контейнер, оптимизированный для работы с программным стеком ROCm 6.4, предназначенный для наиболее эффективного обучения языковых моделей с большим объемом параметров, вроде Llama* 3.1, Llama* 2 и DeepSeek-V2-Lite.
Вышеперечисленные контейнеры также поддерживают предварительно настроенные версии современных LLM, что значительно сокращает время на инференс нейросетей. Для крупных команд разработчиков ИИ контейнеры будут полезны для запуска тестирования, обслуживания и масштабирования новых нейросетей.
Расширенные возможности для PyTorch
Чтобы добавить поддержку наиболее эффективных механизмов внимания для работы с передовыми LLM, в ROCm 6.4 предлагает увеличенную производительность инференса искусственного интеллекта через репозиторий PyTorch, а также дополнительные функциональные возможности, вроде оптимизации механизма внимания Flex, TopK и масштабирования точечного внимания (SDPA). Вот какие улучшения предлагает новая версия ROCm 6.4:
Гибкое внимание — обеспечивает значительный прирост производительности по сравнению с использованием программного стека ROCm 6.3, значительно сокращая время обучения моделей и снижая нагрузку на память — особенно в рабочих нагрузках LLM, которые зависят от продвинутых механизмов внимания.
TopK — операции TopK теперь выполняются в 3 раза быстрее, ускоряя время отклика нейросети при сохранении качества сгенерированных ответов.
SDPA — предлагает более плавный вывод сгенерированных ответов при запросах с длинным контекстом.
Благодаря использованию новых функций, разработчики могут значительно сократить время обучения LLM, при этом снизив требования к вычислительной инфраструктуре и сэкономив больше ресурсов. Впоследствии эти ресурсы можно направить на развитие ключевых направлений, вроде создания новых нейросетей или более тонкой настройки существующих моделей.
Оптимизированные сборки vLLM и SGLang
Для обеспечения низкой задержки и увеличения производительности локально развертываемых LLM компания AMD добавила в ROCm 6.4 оптимизированные сборки vLLM и SGLang, которые настроены для работы с ускорителями. Новые сборки поддерживают работу с новейшими ИИ-моделями, такими как Grok, DeepSeek R1, Gemma 3, Llama* 3.1 (8B, 70B, 405B), позволяя разработчикам этих нейросетей внедрять логические конвейеры в реальном времени с минимальной настройкой или доработкой. К тому же, логические конвейеры получают обновления на еженедельной основе, тем самым нейросети всегда остаются на пике производительности, стабильности и обеспечивают минимальные задержки. К примеру, сборка SGLang при работе с китайской нейросетью DeepSeek R1 увеличивает пропускную способность до рекордных показателей.
Новые функции управления GPU-кластером
Управление GPU-нагрузками в Kubernetes-инфраструктуре часто требует ручного вмешательства: обновление драйверов, контроль системы во избежания простоев и мониторинг состояния вычислительных устройств нередко сопровождаются рисками для производительности и стабильности GPU-кластеров для работы с искусственным интеллектом. Новая функция AMD GPU Operator в составе программного стека ROCm 6.4 значительно упрощает и автоматизирует каждый из этих процессов в режиме реального времени, а также оптимизирует все кластерные операции. Благодаря AMD GPU Operator, системные администраторы ИИ-инфраструктур могут выполнять обновления, масштабировать кластеры с минимальными перебоями в работе, а также удобно выводить большие языковые модели в безопасные среды с возможностью постоянного мониторинга. Ввиду этих улучшений, пользователи вычислительных ресурсов AMD Instinct получают массу преимущества, например, увеличение доступности мощностей и снижение различных операционных рисков. Новые функции включают в себя:
Автоматическое оцепление, слив, перезагрузку для установки текущих обновлений.
Расширенная поддержка операционных систем Red Hat OpenShift 4.16–4.17 и Ubuntu 22.04/24.04, обеспечивая совместимость с современными облачными и корпоративными средами.
Экспортер показателей устройств на базе Prometheus для отслеживания работоспособности системы в режиме реального времени.
Обновленные драйверы и программное обеспечение
AMD заявляет, что монолитные драйверные стеки уже давно канули в лету, поскольку они сковывают возможности разработчиков, мешая созданию передовых моделей искусственного интеллекта из-за долгих циклов обновлений, снижения совместимости с оборудованием и увеличения рисков обслуживания. Чтобы устранить эти недостатки, в программном стеке ROCm 6.4 представлена революционная модульная система драйверов для GPU Instinct, где ядро операционной системы и пользовательские компоненты ROCm существуют как независимые слои. Вот какие возможности предлагают новые драйверы:
Автономность обновлений — системные администраторы ИИ-инфраструктур теперь могут патчить драйверы ядра или обновлять библиотеки ROCm полностью независимо друг от друга.
Гарантия стабильности — срок совместимости версий увеличен вдвое (до 12 месяцев), что снижает частоту обязательных миграций драйверов.
Гибкое развертывание — драйвер адаптируется под любые сценарии использования, от голого железа без ПО и надстроек до контейнерных оркестраторов и проприетарных решений ISV.
Такие модификации устраняют “эффект домино” при изменениях, упрощая масштабирование кластеров искусственного интеллекта на GPU-ускорителях, устраняя вынужденную остановку всех вычислительных процессов один за другим. Это особенно полезно для облачных провайдеров, государственных и коммерческих вычислительных инфраструктур для ИИ со строгими условиями обслуживания клиентов.
Дополнительный инструмент
В качестве бонуса, AMD также добавила в ROCm 6.4 особый инструмент под названием AITER — высокопроизводительную библиотеку для логического вывода с готовыми, предварительно оптимизированными ядрами, не требующими ручной настройки. Преимущества системы AITER включают:
17-кратное ускорение выполнения декодера.
14-кратный прирост внимания сразу в нескольких развернутых языковых моделях.
2-кратное увеличение пропускной способности запущенных LLM.
Выводы
AMD проделала масштабную работу по оптимизации своего программного стека ROCm, устранив все проблемы версии 6.3, которая в декабре 2024 года была раскритикована аналитической компанией SemiAnalysis. Стоит отметить, что обновление ROCm 6.4 является частью новой стратегии AMD, которая направлена на усиление компании в сегменте искусственного интеллекта и навязывание активной конкуренции с Nvidia, которая в настоящее время очень уязвима из-за санкций на поставку H20 в Китай и выхода ИИ-ускорителей Huawei Ascend 920.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.