NVLINK: что это такое и как работает

04.07.2024

~ 14 мин

23214

Простой

Статьи

Введение

В чем секрет Nvidia? В уникальных архитектурных решениях? В гениальности инженеров компании? В программной экосистеме CUDA? Да, но есть большое "НО" — все это не принесло бы такого огромного успеха, если бы мощности отдельных ИИ-ускорителей нельзя было объединять в единую, унифицированную систему, где данные передаются с минимальными задержками. Тут то и пригодится еще одна ключевая технология Nvidia, которая всем известна под именем NVLink. Именно благодаря NVLink корпоративные GPU-ускорители объединяются в серверы, стойки или полноценные ИИ-фабрики, обеспечивая высочайшую производительность систем, где тысячи графических чипов работают как единое целое. В этой статье специалисты компании SeverFlow расскажут вам, что из себя представляет NVLink, как он появился, как он работает, какие вариации NVLink существуют и какие аналоги технологии появились на рынке.

Что такое NVLink и как он работает?

NVLink — это высокоскоростной интерконнект для прямого обмена данными между GPU, разработанный Nvidia в 2014 году и впервые внедренный в ИИ-ускорителях P100 (Pascal) в 2016 году. NVLink был создан как более быстрая альтернатива стандартной шине PCIe, чтобы устранить узкое место при передаче данных в системах с несколькими видеокартами, минуя центральный процессор.

Без NVLink скорость обмена данными между GPU ограничена возможностями шины PCIe — в PCIe 5.0 x16 это не более 128 ГБ/с, а если говорить о привычной односторонней пропускной способности, то не более 64 ГБ/с. Казалось бы, это огромная скорость, которой хватит для любой задачи. А вот и нет! Для задач искусственного интеллекта таких скоростей критически недостаточно — там нужно передавать не гигабайты, а терабайты данных в секунды, поэтому пропускная способность PCIe в этом секторе становятся бутылочным горлышком, вызывая огромные задержки и сводя эффективность мощных GPU на нет.

Но NVLink кардинально меняет ситуацию — самая современная версия интерконнекта NVLink 5.0 обеспечивает одностороннюю пропускную способность 900 ГБ/с — более чем 10 раз быстрее PCIe 5.0. Это сводит какие-либо задержки к минимуму, позволяя GPU обмениваться данными с огромной скоростью и устраняя фактор "убийственной наносекунды". Шина PCIe при этом никак не задействована в обмене данными GPU, что освобождает ее ресурсы под другие задачи.

Как работает Nvidia NVLink на примере системы на базе Nvidia P100. Источник: Nvidia.

Но что же делает NVLink настолько быстрее, чем PCIe? Все благодаря передовым технологическим интеграциям, которые лишний раз подчеркивают, что инженеры Nvidia — гении своего времени:

PAM4 — технология кодирования сигнала (Pulse Amplitude Modulation 4-level), которая позволяет передавать в два раза больше данных за один такт, кодируя сразу два бита в одном электрическом сигнале. Изначально PAM4 использовалась в секторе сетевых решений, однако инженеры Nvidia догадались, что технологию можно вполне эффективно реализовать в рамках экосистемы NVLink, что и дало кратный прирост пропускной способности передачи данных. PCIe тоже не будет обделен PAM4, но только в грядущей спецификации PCIe 6.0, а пока эта прерогатива остается за NVLink.
Unified Memory — NVLink позволяет реализовать концепцию “унифицированной памяти”, когда GPU/CPU объединяются не только на аппаратном, но и на логическом уровне, создавая единое адресное пространство, где память всех чипов находится в едином пуле. Это устраняет узкое место задержек, возникающих при постоянном копировании данных из чипа в чип, обеспечивая высочайшую скорость при работе с огромными объемами данных ИИ-моделей. Яркий пример реализации Unified Memory — передовые стойки Nvidia NVL72, где все ИИ-чипы находятся в едином адресном пространстве, что в исполнении с GB300 дает 20,7 ТБ сверхбыстрой памяти HBM3E с пропускной способностью до 130 ТБ/с.

Как и PCIe, NVLink работает двунаправленно, то есть шина NVLink может одновременно как принимать, так и отправлять данные (хоть и по разным линиям). В версии NVLink 5.0 реальная скорость и приема, и отправки данных составляет 900 ГБ/с, но в маркетинговых целях Nvidia указывает суммарную скорость в 1,8 ТБ/с. Важно понимать, что для работы NVLink требуется не только аппаратная поддержка со стороны видеокарт, но поддержка программной экосистемы CUDA, которая будет распределять задачи между ядрами разных процессоров.

Как вы поняли, технология NVLink — это святой грааль Nvidia, который компания будет оберегать как зеницу ока. Так оно и есть — в современных решениях NVLink является уделом лишь ИИ-ускорителей корпоративного уровня (H100, B200), а потребительский (RTX 5090) и профессиональный сегмент (RTX PRO 6000 Blackwell Workstation Edition) лишены передового интерконнекта. Однако так было не всегда — в поколениях RTX 20 (Turing) и RTX 30 (Ampere) NVLink все же был, однако когда Nvidia поняла всю ценность и потенциал своей технологии, NVLink убрали из потребительского и профессионального сегмента, а RTX 3090 Ti стал последним решением с поддержкой NVLink вне корпоративного рынка.

Nvidia SLI — идейный вдохновитель NVLink

Сейчас компания Nvidia прочно ассоциируется с индустрией искусственного интеллекта, но так было далеко не всегда — раньше подавляющее большинство доходов компании поступало от индустрии 3D-графики и, в частности, сферы видеогейминга. Ввиду этого, Nvidia искала способы заработать на геймерах как можно больше, в результате чего появилась передовая разработка, которая во многом послужила идейным вдохновителем для будущего NVLink — Nvidia SLI, позволяющая объединять две видеокарты для совместного рендеринга 3D-графики. SLI работала так — две видюхи объединялись физическим мостом SLI в виде кабеля, после чего нагрузку от рендеринга можно было распределить между GPU по трем схемам: SFR (кадр делится на части и обрабатывается на 2 GPU одновременно), AFR (кадры рендерятся по очереди) и SLI AA (карты работают для улучшения сглаживания изображений).

В результате SLI позволяла увеличить производительность в играх и профессиональных приложениях, но эффективность увеличивалась не сильно, поскольку сложность отрисовки кадров постоянно меняется, что вызывает простой в работе одного из GPU, пока второй занимается отрисовкой сложного кадра. Кроме того, далеко не все проекты поддерживали SLI, а те, что имели, сопровождались багами рендеринга. Также для работы SLI нужно было использовать только одинаковые видеокарты и не более двух штук, нужна была материнка с поддержкой SLI, да и вообще технология нередко давала фризы. В результате технология SLI была свернута в 2021 году, однако именно принципы ее работы легли в основу создания NVLink.

Nvidia GeForce GTX 1080 Ti объединенные мостом Nvidia SLI

Видеокарты Nvidia GeForce GTX 1080 Ti, объединенные с помощью моста Nvidia SLI. Источник: Occlub.

Версии и аппаратные реализации NVLink

За время существования NVLink Nvidia успела наплодить кучу разных версий и аппаратных реализаций своего интерконнекта, которые отличаются своей пропускной способностью и поддержкой разных поколений ИИ-ускорителей.

Версия NVLink	Архитектуры GPU	Год выпуска	Однонаправленная пропускная способность	Двунаправленная пропускная способность
NVLink 1.0	Pascal	2016	80 ГБ/с	160 ГБ/с
NVLink 2.0	Volta/Turing	2017	100 ГБ/с	200 ГБ/с
NVLink 3.0	Ampere	2020	300 ГБ/с	600 ГБ/с
NVLink 4.0	Hopper	2022	450 ГБ/с	900 ГБ/с
NVLink 5.0	Blackwell	2025	900 ГБ/с	1800 ГБ/с

Но реализация NVLink ушла далеко за пределы пресловутых спецификаций со скучным удвоением скорости — Nvidia также разработала множество аппаратных реализаций NVLink, каждая из которых отличается сценариями использования и возможностями объединения вычислительных компонентов в единое целое.

NVLink Bridge

NVLink Bridge — это физическая плата, которая вставляется в специальные разъемы на торце карт (почти как SLI-мостики, только в сотни раз круче) и соединяет два или четыре соседних ускорителя. Это одна из вариаций технологии NVLink, которая в последний раз применялась в поколении Hopper (PCIe и NVL решения). Для Hopper (H100/H200) мост обеспечивал скорость соединения до 900 ГБ/с двунаправленной, позволяя картам пулить память и работать как одно целое без задержек. Например, установка пары мостов на 8-карточный сервер H200 создает "полносвязную" сеть между всеми 8 GPU, и память этих карт превращается в два пула. Однако в поколении Blackwell Nvidia отказалась от NVLink Bridge по маркетинговым причинам — компания хочет продавать серверы формата HGX и DGX, так как это просто напросто выгоднее, а достойных конкурентов пока нет.

Физические мосты NVLink Bridge для объединения ИИ-ускорителей.

DGX Board

DGX Board — это не просто печатная плата, а полноценная, самостоятельная система для искусственного интеллекта. Внутри каждого DGX-сервера (такого, как DGX H100 или DGX B200) живет DGX Board, на которую распаяны восемь мощнейших GPU, один или несколько центральных процессоров, огромные объемы памяти, NVLink-коммутаторы, а также карты расширения и интерфейсы для подключения к сетям хранения данных. В зависимости от поколения DGX Board применяет разные схемы соединения ускорителей. В старых серверах (DGX-2) на плате размещались 6 микросхем NVSwitch и трассировка для NVLink, чтобы склеить 16 GPU в единый массив с пропускной способностью 300 ГБ/с напрямую. В современных решениях на базе H100, B200 и новейших B300 на плате применяются уже не отдельные микросхемы, а полноценные вычислительные модули, объединяющие GPU через NVSwitch и создающие "полносвязную" сеть с пропускной способностью до 1.8 ТБ/с на GPU. Именно DGX Board является той основой, на которой Nvidia строит свои эталонные системы искусственного интеллекта — от настольной DGX Station до огромных стоек DGX SuperPOD. Это не просто плата, а инженерный шедевр, который объединяет эксафлопсную вычислительную мощность внутри одного блока, позволяя инженерам буквально вытащить из коробки суперкомпьютер.

Nvidia DGX Board на базе ИИ-ускорителей A100. Источник: YouTube.

NVSwitch и NVLink Switch

Когда нужно объединить уже не 2 или 8, а десятки и сотни ускорителей, простых решений уже недостаточно. Nvidia, объединив свой технологический стек с сетевыми наработками Mellanox, придумала для этого целый "коммутатор" — NVSwitch — это отдельный физический ASIC-чип, который дают высокоскоростную неблокируемую пропускную способность, позволяя каждому GPU в стойке общаться с каждым на полной скорости. Также сейчас NVSwitch объединяют в целые ноды по несколько штук, в результате чего получается коммутируемый модуль NVLink Switch. С выходом Blackwell Nvidia сделала огромный шаг вперед. Если раньше свитчи жили внутри одного сервера, то теперь топология (Fat Tree) разлилась на целый шкаф. NVLink Switch 5-го поколения содержит 144 порта NVLink и обладает пропускной способностью коммутации 14.4 ТБ/с в неблокируемом режиме. С помощью этих свитчей строятся легендарные NVL-стойки, которые затем объединяются в вычислительные кластеры и, наконец, целые ИИ-фабрики!

Коммутационный модуль NVLink Switch. Источник: Nvidia.

NVLink C2С (Chip-2-Chip)

После того, как Nvidia научилась соединять видеокарты с помощью NVLink по парам, инженеры компании пошли дальше и спустили этот интерконнект на уровень кристалла. Так появился венец творения всей экосистемы NVLink — NVLink-C2C. Это специализированная версия NVLink, заточенная под сверхплотный монтаж и связь CPU с GPU или двух чиплетов GPU/CPU между собой в рамках одного корпуса или чипа. Грубо говоря, это "внутренний" NVLink. В связке Grace CPU с Blackwell GPU он выдает честные 900 ГБ/с в одну сторону. Но главная фишка тут в аппаратной когерентности памяти. Если раньше CPU и GPU имели раздельные таблицы страниц и пересылали данные друг другу копированием, то с NVLink-C2C они работают в едином адресном пространстве и с общей когерентностью кэша. Это значит, что CPU видит память HBM в GPU и наоборот, GPU видит память LPDDR CPU без всяких лишних телодвижений — просто как соседние NUMA-узлы в одной большой системе. Именно благодаря NVLink-C2C Nvidia получила полностью обособленный аппаратный стек для производства серверов, состоящих из собственных разработок компании, а также он породил такой феномен, как суперчипы: GH200, GB200, грядущие VR200 и даже компактные GB10 из DGX Spark.

Схема работы интерконнекта Nvidia NVLink C2C. Источник: Nvidia.

NVLink Fusion

Если у вас сложилось впечатление, что NVLink — это сугубо проприетарное решение Nvidia, то это не совсем так, ведь существует NVLink Fusion, который позволяет объединять абсолютно любой CPU, ASIC или GPU с ИИ-ускорителями Nvidia. NVLink Fusion — это специальный кремниевый чиплет, который сторонние производители (MediaTek, Synopsys, Marvell) могут лицензировать и встраивать в свои собственные чипы: кастомные ASIC, ускорители или даже серверные процессоры. Раньше все, что было за пределами экосистемы Nvidia, подключалось к ускорителям через узкое горлышко PCIe. С NVLink Fusion этот барьер снимается. Чиплет физически размещается рядом с основным вычислительным кристаллом заказчика и подключается напрямую к фабрике NVLink внутри стойки. Это дает пропускную способность до 14 раз выше, чем у традиционного PCIe Gen5, общую пропускную способность до 800 Гб/с для интеграции с сетевыми фабриками Quantum-X800 и Spectrum-X, а также возможность строить гигантские ИИ-фабрики, где в одном пуле плавают как стандартные GPU Nvidia, так и полностью кастомные ускорители заказчика. Фактически Nvidia сделала то, чего никто не ожидал: они открыли свою самую сокровенную и быструю шину для конкурентов (пусть и за лицензионные отчисления). Это превращает их архитектуру NVLink из просто "проприетарного соединения" в отраслевой стандарт построения гетерогенных суперкомпьютеров.

Схема работы технологии NVLink Fusion. Источник: Nvidia.

NVQLink

Если обычный NVLink предназначен для связи GPU с GPU, то NVQLink — это уже мост между принципиально разными вселенными. NVQLink — это совершенно новая открытая системная архитектура от Nvidia, которая спускает возможности NVLink на уровень соединения классических GPU-суперкомпьютеров с квантовыми процессорами (QPU). Другими словами, NVQLink обеспечивает ту самую "квантово-классическую" связку, где обычные GPU-ускорители в реальном времени управляют квантовыми битами, калибруют их и исправляют ошибки с микросекундными задержками. Идейно это тот же NVLink по своей низкоуровневой природе (завязанный на RDMA через Ethernet), но на практике это уже полноценный открытый хаб, в который может воткнуться любой производитель квантовых железяк. Например, NVQLink обеспечивает производительность вычислений в 40 PetaFLOPS в разреженном формате FP4 и пропускную способность 400 Гбит/с на соединение с задержкой менее 4 микросекунд. Эта технология уже используется в связке Grace Blackwell с квантовым процессором Helios от компании Quantinuum, где позволяет выполнять декодирование квантовой коррекции ошибок в реальном времени. Таким образом, NVQLink — это не просто еще один интерконнект, а основополагающий архитектурный кирпичик для создания гибридных суперкомпьютеров, где классическая и квантовая логика работают как единый организм, причем абсолютно любой производитель может лицензировать спецификацию и встроить NVQLink в свой квантовый контроллер.

Схема работы технологии Nvidia NVQLink. Источник: Nvidia.

Когда нужен NVLink

Мы тут все говорим, насколько NVLink крут, но еще ни разу не упоминали, где используется эта передовая технология. На фоне всех вышеперечисленных преимуществ, ответ выглядит прозаично — для ИИ и HPC. В инфраструктурах для обучения искусственного интеллекта NVLink обеспечивает минимальные задержки при передаче данных между тысячами GPU и позволяет хранить петабайты весов топовых ИИ-моделей в едином адресном пространстве высокоскоростной HBM-памяти. Также NVLink полезен в системах высоконагруженного инференса, например, агентных роев, где также важна минимальная задержка между этапами префилла и декодирования данных. А HPC-кластерах NVLink устраняет необходимость копирования данных из между CPU, GPU и RAM, значительно ускоряя выполнение научных вычислений.

А дружит ли NVLink с потребительским инференсом? Удивительно, но нет — даже топовые инференс-ускорители Nvidia RTX PRO 6000 Blackwell Workstation Edition обделены этой высокоскоростной шиной. На самом деле, NVLink в таких задачах и не особо нужен — модели малого и среднего размера спокойно помещаются в тех же 96 ГБ GDDR7 у RTX PRO, поэтому засовывать веса в единое адресное пространство просто нет нужды, а пропускная способность в рамках одного ИИ-ускорителя и так достаточно велика для работы с LLM.

С инференсом все понятно, но нужен ли NVLink в профессиональных приложениях? Ответ отрезвляющий. Если вы работаете в Autodesk Maya, DaVinci Resolve, ANSYS или Adobe Premiere Pro наличие NVLink в этих программах не дает абсолютно ничего. Потому что архитектура этих задач линейна: данные грузятся из SSD в VRAM, обрабатываются ядрами CUDA и уходят на монитор. Кроме того, в таких задачах нужна не только аппаратная поддержка, но и поддержка NVLink со стороны профессионального софта, которая зачастую отсутствует ввиду ненадобности.

GPU-сервер с ИИ-ускорителями H200, объединенных с помощью NVLink Bridge.

Аналоги NVLink

Мир не стоит на месте, и конкуренты Nvidia активно роют тоннели в обход проприетарной шины. Можно выделить три ключевых альтернативы:

UALink (Ultra Accelerator Link). Консорциум гигантов (AMD, Intel, Google, Microsoft, Meta, Broadcom и Cisco) разрабатывает открытый стандарт высокоскоростного межсоединения для ИИ-ускорителей. По сути, это попытка создать индустриальный аналог NVLink, который не требует лицензионных отчислений Хуангу. Первая спецификация UALink 1.0 дает однонаправленную скорость до 400 ГБ/с и когерентность памяти, однако устройств на базе этой шины до сих пор нет.
AMD Infinity Fabric. Проприетарный аналог NVLink от AMD, работающий поверх протокола PCIe и обеспечивающий связность между кристаллами CPU и GPU в рамках экосистемы AMD. По сути, Infinity Fabric работает как NVLink C2C, но примечательно, что технология AMD появилась аж в 2017 году — за 7 лет до разработки Nvidia. Актуальная версия Infinity Fabric 5.0 обеспечивает однонаправленную скорость передачи данных в 64 ГБ/с, как и PCIe 5.0, но объединяя чипы в единое адресное пространство. AMD Infinity Fabric особенно схожа с NVLink в передовых APU-чипах AMD MI300A для суперкомпьютерных вычислений, где интерконнект объединяет и CPU, и GPU часть в единую вычислительную систему.
Huawei SuperPoD Interconnect (HCCS). Это внутренняя шина HCCS (Huawei Cache Coherent System), используемая в кластерах Ascend. В стойках SuperPoD (например, на базе Atlas 900) интерконнект связывает тысячи ускорителей Ascend 910B/C. В актуальной версии Huawei заявляет об общей пропускной способности HCCS в 392 ГБ/с для 8 NPU в одном сервере, более конкретная информация о скоростях не уточняется.

Выводы

NVLink — это наглядная демонстрация того, как грамотная инженерная мысль, возведенная в ранг коммерческой тайны, становится фундаментом технологического превосходства. Начавшись как замена PCIe и бесполезного SLI, технология эволюционировала в становой хребет современных ИИ-фабрик. Сейчас Nvidia держит рынок корпоративного ИИ в кулаке именно благодаря связке NVLink + NVSwitch. Однако финал этой гонки уже не столь очевиден. С одной стороны, Nvidia анонсом NVLink Fusion ловко развернула ситуацию в свою пользу: "Не можете нас победить? Тогда купите лицензию и присоединяйтесь на зеленую сторону”. С другой стороны, появление открытого консорциума UALink и мощные кастомные разработки вроде AMD Infinity Fabric говорят о том, что эпоха тотальной монополии NVLink, возможно, близится к закату. Пока же одно можно сказать точно: если вы видите стойку, где ускорители выдают производительность свыше 1 EFLOPS в FP8, знайте — внутри работает NVLink. Без него эти тысячи GPU были бы просто горой дорогого и бесполезного кремния.

Автор:

Serverflow