В прошлой статье мы уже рассказали вам, что такое GPUDirect, упомянув, что Nvidia позволяет использовать эту инновационную технологию исключительно в проприетарных экосистемах с собственным оборудованием. Однако из этого довода вытекает логичный вопрос — какую технологию использовать в вычислительных инфраструктурах, базирующихся на ИИ-ускорителях от AMD. Ответ прост: компания AMD позаботилась о пользователях своего оборудования, представив собственный аналог технологии GPUDirect — программный стек ROCm RDMA. В этой статье мы расскажем о том, что такое ROCm RDMA, как работает эта технология и где она применяется.
Что такое GPUDirect и зачем нужен его аналог
GPUDirect — это набор технологий, позволяющих устройствам, например, GPU, NIC и NVMe SSD, напрямую взаимодействовать с памятью GPU без обращения к памяти CPU. Это позволяет значительно снизить задержку, увеличить пропускную способность и снять нагрузку с центрального процессора. Однако технология GPUDirect поддерживается только коммерческими ИИ-ускорителями Nvidia. Очевидно, что ускорителями Instinct и программной платформой ROCm от компании AMD, GPUDirect не поддерживается, но наличие аналогичных по функциональности и эффективности систем критически необходимо для использования оборудования AMD в секторе HPC и ИИ. Чтобы обеспечить конкурентоспособность ИИ-ускорителей Instinct и платформы ROCm на этих рынках, компания AMD в 2018 году разработала собственный аналог GPUDirect — систему ROCm RDMA, которая стала частью ROCm 3.0 и последующих версий платформы.
AMD ROCm RDMA: прямой доступ к памяти GPU
ROCm с поддержкой Remote Direct Memory Access (RDMA) позволяет совместимым сетевым адаптерам, использующим протоколы InfiniBand или RDMA over Converged Ethernet (RoCE), напрямую читать из или записывать данные в HBM-память GPU на удаленных узлах вычислительного кластера. Ключевой принцип тот же, что и у конкурента: сетевой адаптер взаимодействует с памятью GPU напрямую через шину PCIe, используя DMA-движки. Передаваемые данные полностью обходят оперативную память CPU как на отправляющей, так и на принимающей стороне. Благодаря этому достигается низкая задержка и увеличивается пропускная способность в вычислительных системах, где тысячи GPU AMD Instinct обмениваются данными при параллельных вычислениях или синхронизации параметров моделей ИИ. Реализация этих возможностей обеспечивается тесной интеграцией драйверов программного стека ROCm, драйверов RDMA-адаптеров (UltraEthernet, RoCE) и API-библиотек.
Peer-to-Peer и Zero-Copy в ROCm
Для оптимизации работы ROCm RDMA внутри одного сервера программный стек AMD предоставляет два ключевых механизма:
Peer-to-Peer (P2P) Access. Прямой аналог GPUDirect P2P. Позволяет нескольким GPU AMD Instinct, установленным в одном сервере и подключенным к общей шине PCIe, обмениваться данными напрямую между своей памятью (HBM), без промежуточного копирования в RAM CPU. Это резко снижает задержки при взаимодействии GPU внутри узла, что критично для мульти-GPU обучения моделей или сложных симуляций.
Сравнение архитектур Client Server и Peer-to-Peer Access. Источник: .
Zero-Copy. Эта система оптимизирует взаимодействие между CPU и GPU. Она позволяет процессору напрямую обращаться к выделенным буферам в памяти GPU (и наоборот), используя адресное пространство. Хотя это не устраняет участие CPU полностью (в отличие от P2P GPU или RDMA), Zero-Copy избавляет от необходимости постоянного копирования данных между RAM CPU и памятью GPU, что ускоряет работу системы и снижает накладные расходы для определенных паттернов доступа (например, частые мелкие обновления данных на GPU со стороны CPU).
Zero-Copy в системе на базе RDMA RoCE обеспечивает прирост скорости передачи данных и снижение задержек. Источник: .
Infinity Fabric как аппаратная основа
Аппаратной магистралью, обеспечивающей высокоскоростное взаимодействие компонентов внутри систем AMD, является интерконнект Infinity Fabric. В серверных платформах на базе процессоров EPYC и ускорителей серии Instinct MI300, Infinity Fabric выполняет роль высокоскоростной, когерентной шины. Ключевым элементом для связи между GPU выступают Infinity Fabric Links. Это специализированные соединения, аналогичные NVLink у NVIDIA, напрямую связывающие GPU Instinct между собой в рамках одного узла или даже между соседними узлами в стойке с использованием технологий вроде Infinity Fabric over Ethernet. Пропускная способность Infinity Fabric Links значительно превышает возможности PCIe, а задержки минимальны. Это позволяет AMD создавать, по сути, аналоги GB200 суперчипов от Nvidia, такие как в MI300A, и эффективные системы на базе GPU, где обмен данными между ускорителями происходит с максимальной скоростью и минимальным участием CPU. Infinity Fabric — это основа собственной, проприетарной высокопроизводительной экосистемы AMD.
Использование интерконнекта Infinity Fabric в вычислительной системе на базе GPU Instinct и CPU EPYC. Источник: .
Применение в реальных сценариях
Технологии прямого доступа ROCm RDMA и P2P находят применение в секторах, которые считаются самыми требовательными к минимальным задержкам и высокой пропускной способности:
Экзафлопсные суперкомпьютеры. Передовые суперкомпьютеры экзафлопсного класса, такие как El Capitan и Frontier, построены на базе процессоров AMD EPYC и ускорителях AMD Instinct (MI250X на Frontier, MI300A на El Capitan). ROCm RDMA через InfiniBand и высокоскоростные соединения Infinity Fabric обеспечивают рекордную производительность при проведении научных симуляций и других задач, требующих обработки колоссальных объемов данных.
Обучение LLM. Ускорители Instinct MI300X с огромным объемом памяти HBM (до 192 ГБ) и поддержкой ROCm P2P/RDMA идеально подходят для обучения больших языковых моделей. Прямой доступ к памяти и высокая пропускная способность между GPU внутри узла и между узлами ускоряют распространение градиентов и параметров модели, значительно сокращая время на обучение и инференс ИИ.
Коммерческие кластеры. Платформа ROCm с оптимизированными библиотеками коммуникации (RCCL — ROCm Communication Collectives Library, аналог NCCL) и поддержкой MPI-aware ROCm (аналогично Cuda-aware MPI) позволяет эффективно масштабировать коммерческие кластерные инфраструктуры на базе ускорителей AMD. Для оптимизации развертывания ИИ в этих же кластерах используется технология ROCm HIP (Heterogeneous-compute Interface for Portability), позволяющая портировать CUDA-код на платформу AMD.
Передовой суперкомпьютер El Capitan на базе инфраструктуры AMD, использующий ROCm RDMA и P2P для обеспечения прямого доступа к памяти GPU. Источник: .
Выводы
Хотя бренд GPUDirect Nvidia прочно закрепился в сферах, где требуется высокоскоростное соединение GPU, экосистема AMD ROCm предлагает полноценный, высокоэффективный аналог для ускорения передачи данных: ROCm RDMA для прямого сетевого доступа к памяти GPU в кластерах и Peer-to-Peer + Zero-Copy для оптимизации внутрисерверных коммуникаций. Аппаратная мощь Infinity Fabric, особенно в передовых ИИ-ускорителях серии Instinct MI300, а также развитие программного стека ROCm с библиотеками RCCL и HIP, делают AMD серьезным игроком на рынке HPC и ИИ. Наличие конкурирующих, технологически продвинутых решений от AMD и Nvidia — это большой плюс для всей индустрии, поскольку это будет стимулировать появление новых, инновационных решений, снижающих накладную стоимость систем и предоставляющих пользователям свободу выбора оптимальной платформы для выполнения своих задач.
Сама по себе идея начать уже теснить нвидиа хорошая, жаль только наверстать прогресс по гпу задача сама по себе слишком трудная, и дело не только в софте, но и в имидже
Serverflow
Главное, что начало положено, а с притоком инвестиций может и обгонит зеленого гиганта :)
Скидка 3 000 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим вашу обратную связь. После покупки оставьте отзыв о ServerFlow на Яндексе и условия акции будут исполнены.
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.