В 1999 году два конкурирующих проекта: Future I/O и Next Generation I/O (NGIO) — слились в один, в результате чего образовалась ассоциация InfiniBand Trade Association. В нее входили такие корпорации как Compaq, Dell, Hewlett-Packard, IBM, Intel, Microsoft, и Sun. Целью ассоциации являлась разработка и поддержка иновациооного протокола данных для кластеризируемых систем.
В 2000 году была выпущена версия 1.0 спецификации InfiniBand — InfiniBand, которая должна была стать универсальной заменой для соединений PCI, сетей Ethernet, Fibre Channel и кластерных интерконнектов.
Уже в 2001 году Mellanoх — компания, производящая InfiniBand наравне с Qlogic, Voltaire, Topspin — выпускает линейку продуктов InfiniBand под названием InfiniBridge, работающую со скоростью 10 Гбит/с, и продает более 10 тысяч устройств.
В 2003 году технологию InfiniBand используют для постройки третьего в мире по размеру суперкомпьютера System X на базе Технологического института Вирджинии.
В 2009 году среди топ-500 компьютеров мира InfiniBand используют в 181 кластере.
К 2014 году InfiniBand становится самой популярной технологией внутреннего соединения суперкомпьютеров.
В 2019 году Nvidia приобретает Mellanox, последнего независимого производителя продуктов InfiniBand.
Что такое Infiniband?
InfiniBand (cокр. IB) — это высокоскоростная коммуникационная технология, которая используется для внутренних соединений кластеров и центров обработки данных (ЦОД). По сути, InfiniBand является "скоростным шоссе" для передачи данных между узлами в высокопроизводительных вычислительных системах. Используют InfiniBand в основном для реализации построения суперкомпьютеров, систем обработки больших данных или высокоэффективного кластерезирования, когда требуется объединить множество узлов в единый вычислительный кластер с низкой задержкой и высокой пропускной способностью. Данная технология является лидером в скорости передачи данных и отличается сверх низкими задержками.
50-гигабитный адаптер Mellanox на базе интерфейса QSFP28 - MCX4131A-GCAT
Архитектура InfiniBand основана на топологии "коммутируемой фабрики" — вместо общей шины. Данные передаются по отдельным каналам между узлами и коммутаторами в виде пакетов по кратчайшим путям в обе стороны. Она состоит из следующих основных компонентов:
Узлы (Node) — это конечные точки, такие как серверы, системы хранения данных или рабочие станции, которые подключаются к InfiniBand сети через адаптеры каналов узлов (Channel Adapters).
Адаптеры каналов узлов (Channel Adapters, Host Channel) — это сетевые адаптеры InfiniBand, которые устанавливаются в узлы и обеспечивают их подключение к InfiniBand сети. Именно они реализуют технологию RDMA.
Коммутаторы (Switches) — коммутаторы InfiniBand выполняют маршрутизацию пакетов данных между узлами и формируют топологию сети. Существуют как аппаратные, так и программные коммутаторы, однако Infiniband может существовать и без них, передавая данные напрямую по выделенному каналу между устройствами.
Каналы связи (Links) — каналы InfiniBand соединяют адаптеры узлов с коммутаторами и коммутаторы между собой. Они используют медные или оптоволоконные кабели для физического подключения.
Топология Infiniband “Точка-Точка” для объединения нескольких устройств в общую сеть
Топология Infiniband для малых сетей с одним коммутатором
InfiniBand использует архитектуру Fat Tree, когда коммутаторы выполняют большую часть работы по маршрутизации и коммутации трафика, разгружая узлы за счет структуры подключения, напоминающей дерево (увеличивается количество каналов связи при движении от листьев к корню).
Архитектура Fat Tree для сетей Infiniband позволяющая подключить до 72 устройств в кластер
Такая архитектура обеспечивает высокую пропускную способность, масштабируемость, качество обслуживания и отказоустойчивость InfiniBand сетей для высокопроизводительных кластеров и ЦОД.
Одним из главных конкурентов IB на рынке является Ethernet. Однако шины IB имеют ряд преимуществ:
Меньшая задержка: латентность IB составляет около 1 микросекунды, что намного меньше задержки Ethernet в 10-50 микросекунд для малых пакетов данных.
Более эффективное использование процессора: IB использует технологию удаленного прямого доступа к памяти (RDMA), которая позволяет передавать данные напрямую между памятью узлов, минуя процессор и операционную систему — это снижает нагрузку на ЦП. Кроме того, Infiniband активно использует технологию Offloading, освобождающую процессор от лишних задач. В отличие от этого, в сетях Ethernet вся обработка данных ложится на процессор, что может привести к его перегрузке при обработке больших объемов данных.
Более высокая масштабируемость: InfiniBand позволяет строить масштабируемые кластеры с тысячами узлов, в то время как масштабируемость Ethernet в кластеризации ограничена и низкоэффективна, так как он не создавался для решения подобных задач.
Качество обслуживания (QoS): IB предоставляет функции гарантированного качества обслуживания и разделения трафика, чего нет в стандартном Ethernet.
Отказоустойчивость: InfiniBand имеет встроенные механизмы переключения каналов связи на резервный в случае, если с основным каналом возникли неполадки, что обеспечивает более высокую отказоустойчивость, чем Ethernet.
Но у IB есть и недостатки — более высокая стоимость компонентов инфраструктры, сложность настройки и то, что это проприетарная технология, которая является частной собственностью правообладателей и не удовлетворяет критерии свободного ПО. Также технология InfiniBand не может быть использована для доставки данных из глобальной сети Интернет, на ее основе нельзя построить всемирную сеть — IB обычно применяется в рамках ЦОД. В свою очередь, Ethernet разрабатывали как глобальную сеть, которая легко масштабируется для доставки данных с помощью пользовательских протоколов (HTTP или др.). Поэтому в обычных офисных сетях Ethernet остается превалирующей технологией.
Стоит отметить, что стандарт Infiniband не задумывался как заменитель Ethernet, изначально он планировался в качестве высокоскоростного интерконнекта для передачи данных в высокопроизводительных средах, причем набор этих данных в большей степени отличен от Ethernet пакетов.
Основные стандарты Infiniband:
Краткая таблица стандартов IB на 2024 год:
FDR10 40Gb/s (Fourteen Data Rate)
Стандарт представлен в 2010 году — является одной из самых распространенных коммерчески доступных скоростей передачи данных на сегодняшний день для InfiniBand сетей от Mellanox (NVIDIA Networking). Это скоростной стандарт передачи данных, используемый в высокопроизводительных компьютерных сетях и системах хранения данных. Фактически, скорость передачи данных будет равна 40Gb/s.
Для построения сетевой инфраструктуры потребуются следующие компоненты:
Сетевые адаптеры (HCA):
– Адаптеры Mellanox MCX354A-FCBT — или другие Connect X3, на базе интерфейса QSFP+. Адаптеры этого типа способны работать на протоколах FDR10 / FDR 56Gb/s.
Mellanox MCX354A-FCBT. Яркий представитель FDR адаптеров отличающийся демократичной стоимостью и высокой производительностью
Коммутаторы:
– Mellanox IS5022 — 8-портовый коммутатор FDR10, работающий на скоростях до 40 гигабит в секунду на порт. В дальнейшем был заменен продуктами на базе FDR 56GB/s.
Коммутатор Mellanox IS5022 с восьмью портами QSFP+. Идеальное решения для малых кластеров на базе FDR10
FDR 56Gb/s (Fourteen Data Rate)
Протокол представлен в 2011 году — как улучшение FDR10, с целью увеличения скорости передачи данных до 56 Гбит/с на порт. Решения FDR 56Gb/s обеспечивают высокую производительность и масштабируемость для ЦОД, HPC-кластеров, систем машинного обучения, финансовой аналитики и других специализированных сфер, требующих максимальной скорости кодирования и низкой задержки.
Сетевые адаптеры:
– Mellanox ConnectX-3 Pro — одно- и двухпортовые адаптеры с поддержкой FDR 56 Gb/s, низкой задержкой и RDMA.
SFP Модуль Mellanox для коммутации оптоволоконного кабеля в сетевую карту
Mellanox SX6025 и SX6036. Внешне практически не отличаются. Однако SX6036 имеет более удобный менеджмент интерфейс для настройки коммутатора.
EDR 100Gb/s (Enhanced Data Rate)
Представлен в 2015 году — это стандарт IB со скоростью 100 Гбит/с. Обеспечивает очень высокую пропускную способность, низкую задержку и поддержку технологий RDMA, GPUDirect, SR-IOV и др.
Сетевые адаптеры:
– Mellanox MCX455A-ECAT или более поздние контроллеры Mellanox ConnectX-5 Ex, Mellanox ConnectX-6 DX/LX — одно- и двухпортовые EDR 100 Gb/s адаптеры с низкой задержкой и поддержкой RDMA, GPUDirect.
Mellanox MCX455A-ECAT - одно портовый адаптер EDR IB (100Gb/s) на базе интерфейса PCIe3.0 x16
Коммутаторы:
– Mellanox SB7890 - модульный коммутатор с 36 портами EDR.
Mellanox SB7890 - 36 портовый QSFP28 коммутатор с неблокируемой скоростью до 7Tb/s
HDR 200Gb/s (High Data Rate)
Это стандарт InfiBand со скоростью 200 Гбит/с на порт. Обеспечивает максимальную производительность и низкую задержку для суперкомпьютерных вычислений (computing), систем AI/ML/DL, финансовой аналитики и любых приложений, требующих рекордной скорости и пропускной способности сети.
Сетевые адаптеры:
– Mellanox ConnectX-6 DX или ConnectX-7. Адаптеры этих серий обеспечивают стабильную работу HDR 200 Гбит/с.
MCX654106A-HCAT - сетевая карта с двумя портами QSFP56 HDR 200Gb/s и отдельной платой расширителем линий PCI-E. Плата расширитель требуется для обеспечения полной пропускной способности интерфейсов SFP на платформах с устаревшим протоколом PCI-E. Источник: NVIDIA
Коммутаторы:
– Mellanox QM8700 — коммутатор серии Quantum с 40 портами QSFP56 с поддержкой HDR 200Gb/s. Решения такого уровня гарантируют не блокируемую скорость до 16Tb/s.
Mellanox QM8700 применяет повышенную компоновку разъемов QSFP56, что позволило разместить 40 сетевых интерфейсов в 1U корпусе. Источник: NVIDIA
NDR 400Gb/s (Next Data Rate)
Представлен в 2023 году — это новейший стандарт InfiniBand со скоростью 400 Гбит/с. Предоставляет самую высокую скорость для суперкомпьютеров, систем AI/ML/DL, научных вычислений и приложений, требующих максимальной пропускной способности и производительности.
Сетевые адаптеры:
– Mellanox ConnectX-7 — поддерживают NDR 400 Гбит/с, а также более низкие скорости.
MCX75310AAC-NEAT - одно портовый OSFP NDR 400 Гбит/с адаптер из новейшей линейки Connect X7
Анонсирован в 2024 году — это новая спецификация для высокоскоростного соединения памяти и процессоров в современных вычислительных системах. Она была разработана совместными усилиями ведущих компаний, включая AMD, Samsung, Nvidia и других.
XDR обеспечивает огромную пропускную способность до 800 Гбит/с на одно соединение.
Ключевые особенности XDR 800 Гбит/с:
Ультравысокая пропускная способность 800 Гбит/с на одно соединение.
Низкая задержка - менее 10 нс.
Высокая плотность передачи данных благодаря использованию PAM4 кодирования.
Энергоэффективность — более высокая производительность при меньшем энергопотреблении.
Масштабируемая архитектура — возможность использовать несколько каналов XDR одновременно.
Такие сверхвысокие скорости передачи данных крайне важны для приложений искусственного интеллекта, высокопроизводительных вычислений, обработки больших данных и машинного обучения. XDR позволит процессорам и акселераторам AI работать с огромными массивами данных напрямую из памяти на беспрецедентных скоростях.
Первые микросхемы памяти XDR ожидаются уже в 2024 году от компаний Samsung и SK Hynix. А ведущие производители вычислительных систем, такие как Nvidia, AMD и другие, активно работают над интеграцией XDR в свои будущие продукты.
InfiniBand over Ethernet (IBoE) — технология, позволяющая передавать трафик InfiniBand поверх стандартных Ethernet-сетей.
Основная идея IBoE заключается в инкапсуляции пакетов InfiniBand в Ethernet-фреймы (формат данных, используемый в сетях Ethernet) для их транспортировки через обычные Ethernet коммутаторы и кабели.
Эту технологию используют в современных сетевых картах Intel (например, адаптеры Intel E810). Они позволяют легко переключить Ethernet-адаптер в режим работы InfiniBand over Ethernet.
Преимущества IBoE:
Расширение географической досягаемости InfiniBand через IP-сети.
Возможность использования существующей Ethernet-инфраструктуры для построения кластеров IB.
Упрощение миграции и интеграции с традиционными Ethernet-сетями.
Однако, при использовании IBoE добавляются некоторые накладные расходы — увеличение задержки, потеря части производительности из-за инкапсуляции пакетов.
IBoE может применяться в кластерных, облачных и гибридных средах для предоставления удаленного доступа к InfiniBand устройствам и ресурсам через IP-сети, но не заменяет полностью InfiniBand внутри кластеров.
Адаптер Intel E810-XXVDA2 c поддержкой технологий iWARP/RDMA и RoCEv2
RDMA over Converged Ethernet (RoCE) v2
RDMA over Converged Ethernet (RoCE) v2 — это протокол, позволяющий использовать технологию удаленного прямого доступа к памяти RDMA (remote direct memory) поверх стандартных Ethernet-сетей. Основная идея RoCE v2 заключается в передаче пакетов InfiniBand, содержащих инструкции RDMA, через традиционную Ethernet сеть с использованием протокола UDP ("соединение без соединения", когда отправитель просто отсылает пакеты данных получателю без предварительной связи и контроля). Данная технология также используется в современных сетевых картах Ethernet.
Ключевые особенности RoCE v2:
Использование UDP — RoCE v2 использует UDP для инкапсуляции и транспортировки пакетов RDMA, что уменьшает накладные расходы по сравнению с TCP(передача данных с полным контролем). Это позволяет достичь более низкой задержки.
Приоритизация трафика с PFC — механизм Priority-based Flow Control (PFC) позволяет разделять трафик на отдельные классы сервиса с разными приоритетами и управлять потоком для каждого класса независимо.
Конгрессные фреймы — поддерживаются большие конгрессные Ethernet-фреймы (пакеты данных) размером до 9000 байт вместо стандартных 1500 байт, увеличивая пропускную способность.
Защита данных с CRC-32c — применяется улучшенный 32-битный циклический код CRC-32c для лучшей защиты целостности данных.
Обработка на аппаратном уровне — большая часть обработки RoCE v2 происходит на уровне сетевого адаптера, минимизируя участие ядра ОС и процессора.
Благодаря этому, RoCE v2 обеспечивает высокую пропускную способность, низкую задержку и минимальные накладные расходы ЦП для рабочих нагрузок, требовательных к RDMA, таких как кластерные файловые системы, базы данных, виртуализация и другие.
RoCE v2 полностью совместим со стандартной Ethernet инфраструктурой, что позволяет объединить традиционный LAN трафик и RDMA трафик в одной унифицированной сети на основе Ethernet.
Сетевая карта Mellanox MCX4121A-ACAT разработана для работы в сетях Ethernet с поддержкой технологии RoCE
01.11 2024
Лучший дистрибутив Linux для сервера: Debian, Astra Linux, RHEL и другие
Статьи
31.10 2024
Тензорные ядра: что это такое, где используются и для чего нужны?
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.