Скачать
прайс-лист
Бесплатная
доставка по РФ

Все заказы, размещенные в период с 3 по 4 ноября, будут обработаны во вторник, 5 ноября с 9 утра по МСК (в первый рабочий день)

Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста

Что такое Infiniband. История создания и как он работает

31.05.2024, в 10:00
Что такое Infiniband. История создания и как он работает
 
Содержание


История InfiniBand.

  • В 1999 году два конкурирующих проекта: Future I/O и Next Generation I/O (NGIO) — слились в один, в результате чего образовалась ассоциация InfiniBand Trade Association. В нее входили такие корпорации как Compaq, Dell, Hewlett-Packard, IBM, Intel, Microsoft, и Sun. Целью ассоциации являлась разработка и поддержка иновациооного протокола данных для кластеризируемых систем.
  • В 2000 году была выпущена версия 1.0 спецификации InfiniBand — InfiniBand, которая должна была стать универсальной заменой для соединений PCI, сетей Ethernet, Fibre Channel и кластерных интерконнектов.
  • Уже в 2001 году Mellanoх — компания, производящая InfiniBand наравне с Qlogic, Voltaire, Topspin — выпускает линейку продуктов InfiniBand под названием InfiniBridge, работающую со скоростью 10 Гбит/с, и продает более 10 тысяч устройств.
  • В 2003 году технологию InfiniBand используют для постройки третьего в мире по размеру суперкомпьютера System X на базе Технологического института Вирджинии.
  • В 2009 году среди топ-500 компьютеров мира InfiniBand используют в 181 кластере.
  • К 2014 году InfiniBand становится самой популярной технологией внутреннего соединения суперкомпьютеров.
  • В 2019 году Nvidia приобретает Mellanox, последнего независимого производителя продуктов InfiniBand.

Что такое Infiniband?

InfiniBand (cокр. IB) — это высокоскоростная коммуникационная технология, которая используется для внутренних соединений кластеров и центров обработки данных (ЦОД). По сути, InfiniBand является "скоростным шоссе" для передачи данных между узлами в высокопроизводительных вычислительных системах. Используют InfiniBand в основном для реализации построения суперкомпьютеров, систем обработки больших данных или высокоэффективного кластерезирования, когда требуется объединить множество узлов в единый вычислительный кластер с низкой задержкой и высокой пропускной способностью. Данная технология является лидером в скорости передачи данных и отличается сверх низкими задержками.

50-gigabitnyj-adapter-mellanox-na-baze-interfejsa-qsfp28-mcx4131a-gcat.png

50-гигабитный адаптер Mellanox на базе интерфейса QSFP28 - MCX4131A-GCAT

Архитектура InfiniBand основана на топологии "коммутируемой фабрики" —  вместо общей шины. Данные передаются по отдельным каналам между узлами и коммутаторами в виде пакетов по кратчайшим путям в обе стороны. Она состоит из следующих основных компонентов:

  1. Узлы (Node) — это конечные точки, такие как серверы, системы хранения данных или рабочие станции, которые подключаются к InfiniBand сети через адаптеры каналов узлов (Channel Adapters).
  2. Адаптеры каналов узлов (Channel Adapters, Host Channel) — это сетевые адаптеры InfiniBand, которые устанавливаются в узлы и обеспечивают их подключение к InfiniBand сети. Именно они реализуют технологию RDMA.
  3. Коммутаторы (Switches)  — коммутаторы InfiniBand выполняют маршрутизацию пакетов данных между узлами и формируют топологию сети. Существуют как аппаратные, так и программные коммутаторы, однако Infiniband может существовать и без них, передавая данные напрямую по выделенному каналу между устройствами.
  4. Каналы связи (Links) — каналы InfiniBand соединяют адаптеры узлов с коммутаторами и коммутаторы между собой. Они используют медные или оптоволоконные кабели для физического подключения.

topologiya-infiniband-tochka-tochka-dlya-obedineniya-neskolkikh-ustrojstv-v-obshhuyu-set.jpg

Топология Infiniband “Точка-Точка” для объединения нескольких устройств в общую сеть

topologiya-infiniband-dlya-malykh-setej-s-odnim-kommutatorom.jpg

Топология Infiniband для малых сетей с одним коммутатором

InfiniBand использует архитектуру Fat Tree, когда коммутаторы выполняют большую часть работы по маршрутизации и коммутации трафика, разгружая узлы за счет структуры подключения, напоминающей дерево (увеличивается количество каналов связи при движении от листьев к корню).

arkhitektura-fat-tree-dlya-setej-infiniband-pozvolyayushhaya-podklyuchit-do-72-ustrojstv-v-klaster.jpg

Архитектура Fat Tree для сетей Infiniband позволяющая подключить до 72 устройств в кластер

Такая архитектура обеспечивает высокую пропускную способность, масштабируемость, качество обслуживания и отказоустойчивость InfiniBand сетей для высокопроизводительных кластеров и ЦОД.

Одним из главных конкурентов IB на рынке является Ethernet. Однако шины IB имеют ряд преимуществ:

  1. Меньшая задержка: латентность IB составляет около 1 микросекунды, что намного меньше задержки Ethernet в 10-50 микросекунд для малых пакетов данных.
  2. Более эффективное использование процессора: IB использует технологию удаленного прямого доступа к памяти (RDMA), которая позволяет передавать данные напрямую между памятью узлов, минуя процессор и операционную систему — это снижает нагрузку на ЦП. Кроме того, Infiniband активно использует технологию Offloading, освобождающую процессор от лишних задач. В отличие от этого, в сетях Ethernet вся обработка данных ложится на процессор, что может привести к его перегрузке при обработке больших объемов данных.
  3. Более высокая масштабируемость: InfiniBand позволяет строить масштабируемые кластеры с тысячами узлов, в то время как масштабируемость Ethernet в кластеризации ограничена и низкоэффективна, так как он не создавался для решения подобных задач.
  4. Качество обслуживания (QoS): IB предоставляет функции гарантированного качества обслуживания и разделения трафика, чего нет в стандартном Ethernet.
  5. Отказоустойчивость: InfiniBand имеет встроенные механизмы переключения каналов связи на резервный в случае, если с основным каналом возникли неполадки, что  обеспечивает более высокую отказоустойчивость, чем Ethernet.

Но у IB есть и недостатки —  более высокая стоимость компонентов инфраструктры, сложность настройки и то, что это проприетарная технология, которая является частной собственностью правообладателей и не удовлетворяет критерии свободного ПО. Также технология InfiniBand не может быть использована для доставки данных из глобальной сети Интернет, на ее основе нельзя построить всемирную сеть — IB обычно применяется в рамках ЦОД. В свою очередь, Ethernet разрабатывали как глобальную сеть, которая легко масштабируется для доставки данных с помощью пользовательских протоколов (HTTP или др.). Поэтому в обычных офисных сетях Ethernet остается превалирующей технологией.
Стоит отметить, что стандарт Infiniband не задумывался как заменитель Ethernet, изначально он планировался в качестве высокоскоростного интерконнекта для передачи данных в высокопроизводительных средах, причем набор этих данных в большей степени отличен от Ethernet пакетов.

Основные стандарты Infiniband:

Краткая таблица стандартов IB на 2024 год:

kratkaya-tablicza-standartov-ib-na-2024-god.png

FDR10 40Gb/s (Fourteen Data Rate)

Стандарт представлен в 2010 году  — является одной из самых распространенных коммерчески доступных скоростей передачи данных на сегодняшний день для InfiniBand сетей от Mellanox (NVIDIA Networking). Это скоростной стандарт передачи данных, используемый в высокопроизводительных компьютерных сетях и системах хранения данных. Фактически, скорость передачи данных будет равна 40Gb/s.
Для построения сетевой инфраструктуры потребуются следующие компоненты:

Сетевые адаптеры (HCA):

– Адаптеры Mellanox MCX354A-FCBT — или другие Connect X3, на базе интерфейса QSFP+. Адаптеры этого типа способны работать на протоколах FDR10 / FDR 56Gb/s.

mellanox-mcx354a-fcbt-yarkij-predstavitel-fdr-adapterov-otlichayushhijsya-demokratichnoj-stoimostyu-i-vysokoj-proizvoditelnostyu.png

Mellanox MCX354A-FCBT. Яркий представитель FDR адаптеров отличающийся демократичной стоимостью и высокой производительностью

Коммутаторы:

– Mellanox IS5022 — 8-портовый коммутатор FDR10, работающий на скоростях до 40 гигабит в секунду на порт. В дальнейшем был заменен продуктами на базе FDR 56GB/s.

kommutator-mellanox-is5022-s-vosmyu-portami-qsfp-idealnoe-resheniya-dlya-malykh-klasterov-na-baze-fdr10.jpg

Коммутатор Mellanox IS5022 с восьмью портами QSFP+. Идеальное решения для малых кластеров на базе FDR10

FDR 56Gb/s (Fourteen Data Rate)

Протокол представлен в 2011 году — как улучшение FDR10, с целью увеличения скорости передачи данных до 56 Гбит/с на порт. Решения FDR 56Gb/s обеспечивают высокую производительность и масштабируемость для ЦОД, HPC-кластеров, систем машинного обучения, финансовой аналитики и других специализированных сфер, требующих максимальной скорости кодирования и низкой задержки.

Сетевые адаптеры:

– Mellanox ConnectX-3 Pro — одно- и двухпортовые адаптеры с поддержкой FDR 56 Gb/s, низкой задержкой и RDMA.

sfp-modul-mellanox-dlya-kommutaczii-optovolokonnogo-kabelya-v-setevuyu-kartu.png

SFP Модуль Mellanox для коммутации оптоволоконного кабеля в сетевую карту

Коммутаторы:

– Mellanox SX6025/SX6036 — 36 портовые неблокирующий коммутаторы FDR.

mellanox-sx6025-i-sx6036-vneshne-prakticheski-ne-otlichayutsya.png
Mellanox SX6025 и SX6036. Внешне практически не отличаются. Однако SX6036 имеет более удобный менеджмент интерфейс для настройки коммутатора.

EDR 100Gb/s (Enhanced Data Rate)

Представлен в 2015 году — это стандарт IB со скоростью 100 Гбит/с. Обеспечивает очень высокую пропускную способность, низкую задержку и поддержку технологий RDMA, GPUDirect, SR-IOV и др.

Сетевые адаптеры:

– Mellanox MCX455A-ECAT или более поздние контроллеры Mellanox ConnectX-5 Ex, Mellanox ConnectX-6 DX/LX — одно- и двухпортовые EDR 100 Gb/s адаптеры с низкой задержкой и поддержкой RDMA, GPUDirect.

mellanox-mcx455a-ecat-odno-portovyj-adapter-edr-ib-100gbs-na-baze-interfejsa-pcie30-x16.png

Mellanox MCX455A-ECAT - одно портовый адаптер EDR IB (100Gb/s) на базе интерфейса PCIe3.0 x16

Коммутаторы:

– Mellanox SB7890 - модульный коммутатор с 36 портами EDR.

mellanox-sb7890-36-portovyj-qsfp28-kommutator-s-neblokiruemoj-skorostyu-do-7tbs.png

Mellanox SB7890 - 36 портовый QSFP28 коммутатор с неблокируемой скоростью до 7Tb/s

HDR 200Gb/s (High Data Rate)

Это стандарт InfiBand со скоростью 200 Гбит/с на порт. Обеспечивает максимальную производительность и низкую задержку для суперкомпьютерных вычислений (computing), систем AI/ML/DL, финансовой аналитики и любых приложений, требующих рекордной скорости и пропускной способности сети.

Сетевые адаптеры: 

– Mellanox ConnectX-6 DX или ConnectX-7. Адаптеры этих серий обеспечивают стабильную работу HDR 200 Гбит/с.

mcx654106a-hcat-setevaya-karta-s-dvumya-portami-qsfp56-hdr-200gbs-i-otdelnoj-platoj-rasshiritelem-linij-pci-e.png

MCX654106A-HCAT - сетевая карта с двумя портами QSFP56 HDR 200Gb/s и отдельной платой расширителем линий PCI-E. Плата расширитель требуется для обеспечения полной пропускной способности интерфейсов SFP на платформах с устаревшим протоколом PCI-E. Источник: NVIDIA

Коммутаторы:

– Mellanox QM8700 — коммутатор серии Quantum с 40 портами QSFP56 с поддержкой HDR 200Gb/s. Решения такого уровня гарантируют не блокируемую скорость до 16Tb/s.

mellanox-qm8700-primenyaet-povyshennuyu-komponovku-razemov-qsfp56.jpg

Mellanox QM8700 применяет повышенную компоновку разъемов QSFP56, что позволило разместить 40 сетевых интерфейсов в 1U корпусе. Источник: NVIDIA

NDR 400Gb/s  (Next Data Rate)

Представлен в 2023 году — это новейший стандарт InfiniBand со скоростью 400 Гбит/с. Предоставляет самую высокую скорость для суперкомпьютеров, систем AI/ML/DL, научных вычислений и приложений, требующих максимальной пропускной способности и производительности.

Сетевые адаптеры:

– Mellanox ConnectX-7 — поддерживают NDR 400 Гбит/с, а также более низкие скорости.

mcx75310aac-neat-odno-portovyj-osfp-ndr-400-gbits-adapter-iz-novejshej-linejki-connect-x7.jpg

MCX75310AAC-NEAT - одно портовый OSFP NDR 400 Гбит/с адаптер из новейшей линейки Connect X7

Коммутаторы:

– Коммутаторы Nvidia Quantum-2 NDR 400 Гбит/с InfiniBand.

mellanox-quantum-mqm9790-ns2r-vysokoproizvoditelnyj-kommutator-ndr-400-gbits-s-32-portami-osfp.jpg

Mellanox Quantum MQM9790-NS2R — высокопроизводительный коммутатор NDR 400 Гбит/с с 32 портами OSFP. Источник: NVIDIA

XDR 800Gb/s (eXtended Data Rate)

Анонсирован в 2024 году — это новая спецификация для высокоскоростного соединения памяти и процессоров в современных вычислительных системах. Она была разработана совместными усилиями ведущих компаний, включая AMD, Samsung, Nvidia и других.
XDR обеспечивает огромную пропускную способность до 800 Гбит/с на одно соединение.

Ключевые особенности XDR 800 Гбит/с:

  1. Ультравысокая пропускная способность 800 Гбит/с на одно соединение.
  2. Низкая задержка - менее 10 нс.
  3. Высокая плотность передачи данных благодаря использованию PAM4 кодирования.
  4. Энергоэффективность — более высокая производительность при меньшем энергопотреблении.
  5. Масштабируемая архитектура — возможность использовать несколько каналов XDR одновременно.
Такие сверхвысокие скорости передачи данных крайне важны для приложений искусственного интеллекта, высокопроизводительных вычислений, обработки больших данных и машинного обучения. XDR позволит процессорам и акселераторам AI работать с огромными массивами данных напрямую из памяти на беспрецедентных скоростях.
Первые микросхемы памяти XDR ожидаются уже в 2024 году от компаний Samsung и SK Hynix. А ведущие производители вычислительных систем, такие как Nvidia, AMD и другие, активно работают над интеграцией XDR в свои будущие продукты.

nvidia-quantum-x800-infiniband-kommutator.jpg

NVIDIA Quantum-X800 InfiniBand коммутатор. Источник: NVIDIA

Способы объединения InfiniBand и Ethernet

InfiniBand over Ethernet (IBoE)

InfiniBand over Ethernet (IBoE) — технология, позволяющая передавать трафик InfiniBand поверх стандартных Ethernet-сетей.
Основная идея IBoE заключается в инкапсуляции пакетов InfiniBand в Ethernet-фреймы (формат данных, используемый в сетях Ethernet) для их транспортировки через обычные Ethernet коммутаторы и кабели.
Эту технологию используют в современных сетевых картах Intel (например, адаптеры Intel E810). Они позволяют легко переключить Ethernet-адаптер в режим работы InfiniBand over Ethernet.

Преимущества IBoE:

  1. Расширение географической досягаемости InfiniBand через IP-сети.
  2. Возможность использования существующей Ethernet-инфраструктуры для построения кластеров IB.
  3. Упрощение миграции и интеграции с традиционными Ethernet-сетями.
Однако, при использовании IBoE добавляются некоторые накладные расходы — увеличение задержки, потеря части производительности из-за инкапсуляции пакетов.
IBoE может применяться в кластерных, облачных и гибридных средах для предоставления удаленного доступа к InfiniBand устройствам и ресурсам через IP-сети, но не заменяет полностью InfiniBand внутри кластеров.

adapter-intel-e810-xxvda2-c-podderzhkoj-tekhnologij-iwarprdma-i-rocev2.png

Адаптер Intel E810-XXVDA2 c поддержкой технологий iWARP/RDMA и RoCEv2

RDMA over Converged Ethernet (RoCE) v2

RDMA over Converged Ethernet (RoCE) v2 — это протокол, позволяющий использовать технологию удаленного прямого доступа к памяти RDMA (remote direct memory) поверх стандартных Ethernet-сетей. Основная идея RoCE v2 заключается в передаче пакетов InfiniBand, содержащих инструкции RDMA, через традиционную Ethernet сеть с использованием протокола UDP ("соединение без соединения", когда отправитель просто отсылает пакеты данных получателю без предварительной связи и контроля). Данная технология также используется в современных сетевых картах Ethernet.

Ключевые особенности RoCE v2:

  1. Использование UDP — RoCE v2 использует UDP для инкапсуляции и транспортировки пакетов RDMA, что уменьшает накладные расходы по сравнению с TCP(передача данных с полным контролем). Это позволяет достичь более низкой задержки.
  2. Приоритизация трафика с PFC — механизм Priority-based Flow Control (PFC) позволяет разделять трафик на отдельные классы сервиса с разными приоритетами и управлять потоком для каждого класса независимо.
  3. Конгрессные фреймы — поддерживаются большие конгрессные Ethernet-фреймы (пакеты данных) размером до 9000 байт вместо стандартных 1500 байт, увеличивая пропускную способность.
  4. Защита данных с CRC-32c — применяется улучшенный 32-битный циклический код CRC-32c для лучшей защиты целостности данных.
  5. Обработка на аппаратном уровне — большая часть обработки RoCE v2 происходит на уровне сетевого адаптера, минимизируя участие ядра ОС и процессора.
Благодаря этому, RoCE v2 обеспечивает высокую пропускную способность, низкую задержку и минимальные накладные расходы ЦП для рабочих нагрузок, требовательных к RDMA, таких как кластерные файловые системы, базы данных, виртуализация и другие.
RoCE v2 полностью совместим со стандартной Ethernet инфраструктурой, что позволяет объединить традиционный LAN трафик и RDMA трафик в одной унифицированной сети на основе Ethernet.

setevaya-karta-mellanox-mcx4121a-acat.png

Сетевая карта Mellanox MCX4121A-ACAT разработана для работы в сетях Ethernet с поддержкой технологии RoCE
читать больше записей

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.