Аналог GPUDirect от AMD: как работает ROCm RDMA и Peer-to-Peer

14.07.2025

~ 15 мин

1407

Средний

Статьи

Введение

В прошлой статье мы уже рассказали вам, что такое GPUDirect, упомянув, что Nvidia позволяет использовать эту инновационную технологию исключительно в проприетарных экосистемах с собственным оборудованием. Однако из этого довода вытекает логичный вопрос — какую технологию использовать в вычислительных инфраструктурах, базирующихся на ИИ-ускорителях от AMD. Ответ прост: компания AMD позаботилась о пользователях своего оборудования, представив собственный аналог технологии GPUDirect — программный стек ROCm RDMA. В этой статье мы расскажем о том, что такое ROCm RDMA, как работает эта технология и где она применяется.

Что такое GPUDirect и зачем нужен его аналог

GPUDirect — это набор технологий, позволяющих устройствам, например, GPU, NIC и NVMe SSD, напрямую взаимодействовать с памятью GPU без обращения к памяти CPU. Это позволяет значительно снизить задержку, увеличить пропускную способность и снять нагрузку с центрального процессора. Однако технология GPUDirect поддерживается только коммерческими ИИ-ускорителями Nvidia. Очевидно, что ускорителями Instinct и программной платформой ROCm от компании AMD, GPUDirect не поддерживается, но наличие аналогичных по функциональности и эффективности систем критически необходимо для использования оборудования AMD в секторе HPC и ИИ. Чтобы обеспечить конкурентоспособность ИИ-ускорителей Instinct и платформы ROCm на этих рынках, компания AMD в 2018 году разработала собственный аналог GPUDirect — систему ROCm RDMA, которая стала частью ROCm 3.0 и последующих версий платформы.

AMD ROCm RDMA: прямой доступ к памяти GPU

ROCm с поддержкой Remote Direct Memory Access (RDMA) позволяет совместимым сетевым адаптерам, использующим протоколы InfiniBand или RDMA over Converged Ethernet (RoCE), напрямую читать из или записывать данные в HBM-память GPU на удаленных узлах вычислительного кластера. Ключевой принцип тот же, что и у конкурента: сетевой адаптер взаимодействует с памятью GPU напрямую через шину PCIe, используя DMA-движки. Передаваемые данные полностью обходят оперативную память CPU как на отправляющей, так и на принимающей стороне. Благодаря этому достигается низкая задержка и увеличивается пропускная способность в вычислительных системах, где тысячи GPU AMD Instinct обмениваются данными при параллельных вычислениях или синхронизации параметров моделей ИИ. Реализация этих возможностей обеспечивается тесной интеграцией драйверов программного стека ROCm, драйверов RDMA-адаптеров (UltraEthernet, RoCE) и API-библиотек.

Peer-to-Peer и Zero-Copy в ROCm

Для оптимизации работы ROCm RDMA внутри одного сервера программный стек AMD предоставляет два ключевых механизма:

Peer-to-Peer (P2P) Access. Прямой аналог GPUDirect P2P. Позволяет нескольким GPU AMD Instinct, установленным в одном сервере и подключенным к общей шине PCIe, обмениваться данными напрямую между своей памятью (HBM), без промежуточного копирования в RAM CPU. Это резко снижает задержки при взаимодействии GPU внутри узла, что критично для мульти-GPU обучения моделей или сложных симуляций.

Архитектуры Client Server и Peer-to-Peer Access

Сравнение архитектур Client Server и Peer-to-Peer Access. Источник: Politesi.polimi.

Zero-Copy. Эта система оптимизирует взаимодействие между CPU и GPU. Она позволяет процессору напрямую обращаться к выделенным буферам в памяти GPU (и наоборот), используя адресное пространство. Хотя это не устраняет участие CPU полностью (в отличие от P2P GPU или RDMA), Zero-Copy избавляет от необходимости постоянного копирования данных между RAM CPU и памятью GPU, что ускоряет работу системы и снижает накладные расходы для определенных паттернов доступа (например, частые мелкие обновления данных на GPU со стороны CPU).

Zero-Copy в системе на базе RDMA RoCE обеспечивает прирост скорости передачи данных и снижение задержек. Источник: Icbook.livejournal.

Infinity Fabric как аппаратная основа

Аппаратной магистралью, обеспечивающей высокоскоростное взаимодействие компонентов внутри систем AMD, является интерконнект Infinity Fabric. В серверных платформах на базе процессоров EPYC и ускорителей серии Instinct MI300, Infinity Fabric выполняет роль высокоскоростной, когерентной шины. Ключевым элементом для связи между GPU выступают Infinity Fabric Links. Это специализированные соединения, аналогичные NVLink у NVIDIA, напрямую связывающие GPU Instinct между собой в рамках одного узла или даже между соседними узлами в стойке с использованием технологий вроде Infinity Fabric over Ethernet. Пропускная способность Infinity Fabric Links значительно превышает возможности PCIe, а задержки минимальны. Это позволяет AMD создавать, по сути, аналоги GB200 суперчипов от Nvidia, такие как в MI300A, и эффективные системы на базе GPU, где обмен данными между ускорителями происходит с максимальной скоростью и минимальным участием CPU. Infinity Fabric — это основа собственной, проприетарной высокопроизводительной экосистемы AMD.

Система на базе интерконнекта Infinity Fabric

Использование интерконнекта Infinity Fabric в вычислительной системе на базе GPU Instinct и CPU EPYC. Источник: AMD.

Применение в реальных сценариях

Технологии прямого доступа ROCm RDMA и P2P находят применение в секторах, которые считаются самыми требовательными к минимальным задержкам и высокой пропускной способности:

Экзафлопсные суперкомпьютеры. Передовые суперкомпьютеры экзафлопсного класса, такие как El Capitan и Frontier, построены на базе процессоров AMD EPYC и ускорителях AMD Instinct (MI250X на Frontier, MI300A на El Capitan). ROCm RDMA через InfiniBand и высокоскоростные соединения Infinity Fabric обеспечивают рекордную производительность при проведении научных симуляций и других задач, требующих обработки колоссальных объемов данных.
Обучение LLM. Ускорители Instinct MI300X с огромным объемом памяти HBM (до 192 ГБ) и поддержкой ROCm P2P/RDMA идеально подходят для обучения больших языковых моделей. Прямой доступ к памяти и высокая пропускная способность между GPU внутри узла и между узлами ускоряют распространение градиентов и параметров модели, значительно сокращая время на обучение и инференс ИИ.
Коммерческие кластеры. Платформа ROCm с оптимизированными библиотеками коммуникации (RCCL — ROCm Communication Collectives Library, аналог NCCL) и поддержкой MPI-aware ROCm (аналогично Cuda-aware MPI) позволяет эффективно масштабировать коммерческие кластерные инфраструктуры на базе ускорителей AMD. Для оптимизации развертывания ИИ в этих же кластерах используется технология ROCm HIP (Heterogeneous-compute Interface for Portability), позволяющая портировать CUDA-код на платформу AMD.

Передовой суперкомпьютер El Capitan на базе инфраструктуры AMD, использующий ROCm RDMA и P2P для обеспечения прямого доступа к памяти GPU. Источник: Vgtimes.

Выводы

Хотя бренд GPUDirect Nvidia прочно закрепился в сферах, где требуется высокоскоростное соединение GPU, экосистема AMD ROCm предлагает полноценный, высокоэффективный аналог для ускорения передачи данных: ROCm RDMA для прямого сетевого доступа к памяти GPU в кластерах и Peer-to-Peer + Zero-Copy для оптимизации внутрисерверных коммуникаций. Аппаратная мощь Infinity Fabric, особенно в передовых ИИ-ускорителях серии Instinct MI300, а также развитие программного стека ROCm с библиотеками RCCL и HIP, делают AMD серьезным игроком на рынке HPC и ИИ. Наличие конкурирующих, технологически продвинутых решений от AMD и Nvidia — это большой плюс для всей индустрии, поскольку это будет стимулировать появление новых, инновационных решений, снижающих накладную стоимость систем и предоставляющих пользователям свободу выбора оптимальной платформы для выполнения своих задач.

Автор:

Serverflow