Все о Slingshot — ведущий интерконнект в секторе HPC MPI

18.06.2025

~ 15 мин

1398

Сложный

Статьи

Введение

В сфере высоких вычислений существует большое количество RDMA-систем, большинство из которых мы уже разобрали в отдельных статьях. Многим может показаться, что большинство современных суперкомпьютерных кластеров базируются на сетевой инфраструктуре технологии InfiniBand, так как она обеспечивает минимальные задержки и самую высокую пропускную способность среди RDMA-реализаций, что критически важно для HPC-MPI. Однако, на деле передовые суперкомпьютерные кластеры используют специальный, проприетарный интерконнект под названием Slingshot, разработанный компанией Cray. В этой статье мы расскажем вам, что из себя представляет технология Slingshot, как она появилась, в чем ее особенности и какое оборудование ее поддерживает.

Что такое Slingshot?

Slingshot — это проприетарная сетевая экосистема и одноименный интерконнект, разработанный компанией HPE (Cray) и ориентированный на использование в суперкомпьютерных кластерах экзафлопсного класса для передачи данных (MPI-трафика) между узлами HPC-кластера. Инфраструктура на базе Slingshot обеспечивает высокую пропускную способность до 400 Гбит/с, низкую задержку менее 1 мкс и обратную совместимость со стандартным протоколом Ethernet (через HPC-Ethernet).

Архитектура HPE Cray EX на базе Slingshot

Аппаратная архитектура вычислительной платформы HPE Cray EX с поддержкой интерконнекта Slingshot. Источник: HPE.

Отметим, что мы будем указывать показатели задержек именно при передаче MPI-трафика, поскольку именно этот тип данных преобладает в суперкомпьютерных вычислениях при связи между узлами HPC-кластера.

Для того, чтобы добиться столь минимальных показателей задержки, разработчики интерконнекта интегрировали в экосистему Slingshot поддержку особой топологии Dragonfly с высокой связностью. Эта уникальная топология минимизирует количество хопов между узлами до 2–3 даже в огромных кластерах на 250 тысяч и более узлов, что и позволяет достичь настолько низкой латентности. Кроме того, оборудование, совместимое с технологией Slingshot, базируется на собственных ASIC-микросхемах Rosetta, которые могут встраиваться как в NIC, так и свичи.

Blade-коммутатор с поддержкой интерконнекта Slingshot-11. Источник: Wikichip.

Еще одно неоспоримое преимущество технологии Slingshot является наличие функций адаптивной маршрутизации и алгоритмов контроля перегрузок, которые динамически снижают нагрузку на сетевые пути при передачи трафика до 95% и позволяют обходить наиболее нагруженные участки сети, что стало возможным благодаря использованию ASIC Rosetta. Благодаря этим функциям технологии Slingshot удается конкурировать с протоколом InfiniBand в секторе HPC. Но не стоит списывать разработки NVIDIA со счетов — компания интегрирует в собственные HPC-кластеры передовые суперчипы Grace-Hooper, тем самым популяризируя экосистему решений с поддержкой протокола InfiniBand. Тем не менее, компания HPE не собирается сдавать позиции, и использует свой авторитет в области суперкомпьютерных вычислений, агрессивно продвигая собственные HPC-платформы HPE Cray EX на базе интерконнекта Slingshot, которые нередко становятся лидерами рейтинга TOP500.

Архитектура ASIC-микросхемы Rosetta, которая используется в коммутаторах Slingshot-11 200 Гбит/с. Источник: Nextplatform.

Пока конкуренция в мире суперкомпьютеров накаляется до предела, новый рейтинг TOP500 удивил всех: в центре внимания оказался Alps, построенный на передовой платформе HPE Cray EX254n, где суперчипы NVIDIA Grace Hopper работают в связке со Slingshot.

HPE объявляет о внедрении решений Nvidia

HPE объявляет о своих планах на внедрение CPU и GPU от компании Nvidia в 2025 году. Источник: HPE.

История развития Slingshot

Технология Slingshot была создана в 2019 году легендарной американской компанией Cray, которая специализируется на поставке решений для сектора суперкомпьютерных вычислений. Cray появилась еще в 1972 году, а ее основателями стали выходцы из проекта Control Data Corporation (CDC), создавшие первый в мире суперкомпьютер CDC 6600 в 1963 году. Отделившись от CDC, основатель организации Сеймур Крэй создал собственную компанию Cray, которая впоследствии выпустила один из первых HPC-кластеров Cray-1.

Первый суперкомпьютер компании Cray под названием Cray-1. Источник: Wiki.

Ввиду этого неудивительно, что именно компания Cray ответственна за выпуск передового интерконнекта Slingshot, который в настоящее время является основным стандартом для разработки передовых HPC-кластеров. В 2019 году, сразу после выпуска первой массовой версии Slingshot-10, компания Cray была выкуплена корпорацией HPE, ввиду чего патент на интерконнект перешел в новые руки. В целом, инициатива создания Slingshot была начата еще в конце 2010-х годов, когда производительность передовых суперкомпьютеров стала стремительно расти, поэтому индустрии требовалось инновационное решение для обеспечения максимальной масштабируемости, пропускной способности и минимизации задержек. Однако до выхода Slingshot, компания Cray представила целый ряд различных интерконнектов, наработки из которых впоследствии использовались при разработке Slingshot.

Cray X1 (2002–2004). Первый интерконнект Cray, использовавшийся в одноименных суперкомпьютерных платформах. Основан на проприетарной архитектуре с топологией “2D torus” и поддерживал скорость передачи данных до 6,4 Гбит/с на узел. Cray X1 применялся в системах для метеорологии и научных центрах.
SeaStar (2004–2007). Разработан для серии платформ суперкомпьютеров Cray XT3/XT4. Использовал топологию 3D-tor, имел скорость передачи данных 9,6 Гбит/с и обеспечивал задержки от 5 до 10 мкс. Ключевая особенность SeaStar — в нем впервые появилась аппаратная поддержка MPI-трафика. SeaStar использовался в суперкомпьютере Jaguar (Oak Ridge), производительность которого достигала 1,75 PFLOPS в 2010 году.
Gemini (2010–2012). Создан для платформы Cray XE6. В этой версии интерконнекта впервые появилась топология Dragonfly, а пропускная способность увеличилась до 10 Гбит/с. Также Gemini стал первым интерконнектом, который внедрил систему адаптивной маршрутизации, что позволило снизить задержки в передаче данных до 3 мкс. Использовался в суперкомпьютере Titan с производительностью 17.6 PFLOPS.
Aries (2012–2019). Флагманское решение для платформы Cray XC40. Использование интерконнекта Aries позволило увеличить скорость портов до 25 Гбит/с. Как и предшественник в лице Gemini, интерконнект Aries базировался на топологии Dragonfly. Применялся в системах типа Cascade (суперкомпьютер Пентагона) и Shaheen II. В 2012 году технология Aries была продана компании Intel для разработки интерконнекта Omni-Path.
Slingshot-10 (2019–2021): Первая массовая версия интерконнекта от компании Cray с пропускной способностью до 100 Гбит/с. Slingshot-10 поддерживает стандартный протокол Ethernet, базовые механизмы управления перегрузками. Slingshot-10 применялся в ранних версиях систем линейки HPE Cray EX.
Slingshot-11 (2021–2023): Передовая версия интерконнекта с удвоенной пропускной способностью до 200 Гбит/с. Slingshot-11 поддерживает адаптивную маршрутизацию и аппаратное ускорение MPI-трафика, обеспечивая задержки около 1,8 мкс. Именно эта версия интерконнекта Cray легла в основу суперкомпьютера Frontier (США), который стал первым HPC-решением, которое достигло производительности 1,194 EFLOPS. Slingshot-11 до сих пор используется в передовых суперкомпьютерных кластерах, которые вошли в недавнее июньское обновление рейтинга TOP500 2025.

В 2024 году компания HPE также представила новейшую версию интерконнекта Slingshot, в которой была удвоена пропускная способность до 400 Гбит/с, скорость ASIC-чипа (предположительно Rosetta 2) увеличена до 51,2 Тбит/с, а задержки удалось снизить до менее 1 мкс. Технология будет применяться в новейших суперкомпьютерных платформах HPE Cray EX4000, однако первые HPC-решения на базе этих передовых систем, скорее всего, появятся не ранее ноября 2025 / июня 2026 года. С учетом тенденции удвоения пропускной способности, можно предположить, что будущее поколение интерконнектов Slingshot будет называться Slingshot-800, а его скорость передачи данных достигнет 800 Гбит/с.

Концепция HPC Ethernet

Помимо ключевых аппаратных технологий, низкие задержки интерконнекта Slingshot также достигаются благодаря использованию уникального сетевого протокола, который был специально разработан компанией Cray для минимизации латентности и обеспечения совместимости своей технологии со стандартной Ethernet-инфраструктурой. Этот сетевой протокол называется HPC-Ethernet.

Протокол HPC-Ethernet — это оптимизированная версия стандартного Ethernet, которая гарантирует отсутствие потери пакетов, микросекундные задержки и высокую пропускную способность. Рассмотрим ключевые особенности этого протокола:

Алгоритмы zero-loss. Эти алгоритмы динамически анализируют трафик, определяя возможность перегрузки и регулируют параметры передачи данных в реальном времени, исключая потерю пакетов даже при нагрузке на сеть свыше 90%.
Интеграция с RDMA. Поддержка RDMA-функций снижает нагрузку на CPU за счет прямого доступа к памяти, обхода ядра ОС и аппаратной обработки трафика, что ускоряет обмен данными в HPC-кластерах.
Топологическая гибкость. Совместим с масштабируемыми топологиями Dragonfly в Slingshot, что сокращает число "хопов" между узлами до 2–3.

Совместимость с Loseless Ethernet

Одна из главных особенностей протокола HPC Ethernet — полная поддержка функций более распространенной сетевой среды Lossless Ethernet (используется в RoCEv2), благодаря чему протокол гарантирует нулевую потерю пакетов, при этом оптимизируя их для экстремальных нагрузок индустрии суперкомпьютерных вычислений. В частности, HPC Ethernet поддерживает такие функции, как PFC (Priority Flow Control) и ECN (Explicit Congestion Notification), которые динамически управляют трафиком при перегрузках. Поддержка реализована на аппаратном уровне в ASIC-чипах Rosetta, где технологии Lossless Ethernet сочетаются с адаптивной маршрутизацией и алгоритмами контроля перегрузок. Это позволяет Slingshot работать в гибридных инфраструктурах (например, RoCEv2/HPC-Ethernet), обеспечивая полную синхронизацию между узлами. Однако интеграция HPC Ethernet в инфраструктуру Lossless Ethernet приведет к росту задержек ввиду необходимости в дополнительной обработке сетевого трафика в целях минимизации потери пакетов, однако при обработке MPI-трафика этот недостаток исключен.

Совместимость с Ethernet

HPC Ethernet также сохраняет полную обратную совместимость с традиционным Ethernet. На физическом уровне используются те же кабельные системы (оптика и DAC 100/400GbE) и коммутаторы, а на протокольном — поддерживается стек TCP/IP, UDP и сокеты POSIX. Главное отличие между протоколами заключается в программно-аппаратных оптимизациях и поддержке RDMA-функций: например, сетевые адаптеры в Slingshot автоматически активируют режим kernel bypass для HPC-трафика (через библиотеки libfabric), перенаправляя данные напрямую в пользовательское пространство и снижая задержки менее 1 мкс, тогда как обычный Ethernet трафик обрабатывается стандартным путем через ядро ОС, что вызывает рост задержек. Вследствие этого, HPC Ethernet потеряет все свои преимущества при интеграции в традиционную инфраструктуру Ethernet.

Важность топологии DragonFly

Для достижения настолько низких задержек при передаче MPI-трафика, было бы недостаточно создания использования передовых аппаратных и программных систем. Компания Cray приняла решение использовать уникальную разработку профессора Джона Кима — сетевую топологию Dragonfly (“стрекоза”).

Dragonfly — особая сетевая структура, оптимизированная для суперкомпьютеров с десятками тысяч узлов. Главная особенность Dragonfly — минимизация диаметра сети (максимального числа переходов между любыми узлами), что радикально снижает задержки и стоимость возведения вычислительной инфраструктуры. Архитектура организует узлы в группы, внутри которых соединение выстраивается через дешевые и эффективные медные кабели, а между группами соединение происходит посредством оптических кабелей с высокой пропускной способностью. Каждая группа функционирует как маршрутизатор для других групп, что сокращает необходимость в интеграции дорогостоящих Director-коммутаторов.

Описание особенностей топологии Dragonfly. Источник: FR.Slideserve.

Примечательно, что у топологии Dragonfly есть уязвимость в лице риска перегрузок глобальных путей трафика при отсутствии балансировки нагрузки между группами, но именно для устранения этого недостатка компания Cray интегрировала в ASIC-чипы Rosetta функцию адаптивной маршрутизации. В сочетании с поддержкой протокола HPC Ethernet это позволяет топологии Dragonfly масштабироваться даже до систем с производительностью в 1 ZFLOPS (зеттафлопс). Несмотря на конкуренцию с более традиционными топологиями, такими как Fat-Tree и Hypercube, Dragonfly остается доминирующей технологией в рейтинге лучших суперкомпьютеров TOP500 благодаря балансу стоимости, энергоэффективности и низкой задержке, оставаясь главным стандартом для сферы экзафлопсных вычислений.

Визуализация топологии Dragonfly. Источник: PVSM.

Совместимое оборудование

Все оборудование с поддержкой интерконнекта Slingshot выпускается производственными мощностями компании HPE, в том числе ASIC-микросхемы для создания совместимых сетевых карт и коммутаторов. Рассмотрим, с каким оборудованием для сектора суперкомпьютерных вычислений совместим интерконнект Slingshot.

Сетевые карты

Сетевые карты с поддержкой Slingshot представлены решениями Cassini NIC. Эти сетевые карты обеспечивают передачу данных со скоростью от 200 Гбит/с до 400 Гбит/с, имеют задержки менее 1 мкс, а также поддерживают функционал RDMA и Lossless Ethernet за счет использования ASIC-чипов Rosetta. Карты интегрируются в системы на базе процессоров AMD EPYC и ИИ-ускорителей от Nvidia или AMD, например, в суперкомпьютерах El Capitan и Frontier.

PCIe-карта HPE Slingshot SA210S Cassini NIC 200 Gb/s с поддержкой технологии Slingshot-11. Источник: HPE.

Коммутаторы

Коммутаторы Slingshot, такие как HPE Slingshot 64-port QSFP-DD (200/400 Гбит/с) и блейд-версии для шасси HPE Cray EX, также построены на специализированных чипах Rosetta ASIC с пропускной способностью до 51,2 Тбит/с. Коммутаторы Slingshot поддерживают до 64 портов с оптическими интерфейсами QSFP-DD. Ключевые особенности включают поддержку адаптивной маршрутизации и механизмы предотвращения перегрузок сети без потерь пакетов. Коммутаторы поддерживают гибридные режимы работы: HPC Ethernet для MPI-трафика и стандартный Ethernet для периферийных задач. Для интеграции этих коммутаторов используются специализированные кабели HPE Slingshot L0, обеспечивающие минимальное затухание сигнала в оптических магистралях.

Полуфотонный коммутатор HPE Slingshot-400, продемонстрированный на конференции SC24. Источник: ServeTheHome.

Выводы

Несмотря на то, что интерконнект Slingshot все же проигрывает протоколу InfiniBand по пропускной способности (400 Гбит/с против 800 Гбит/с), передовая разработка компании Cray и ее уникальные элементы, такие как сверхмасштабируемая топология DragonFly, минимальные задержки и адаптивная маршрутизация, обеспечивают доминацию Slingshot в секторе HPC. Тем не менее, компания Nvidia наращивает свое влияние в сфере создания передовых суперкомпьютеров, поэтому не исключено, что со временем решения на базе протокола InfiniBand будут занимать все большую и большую долю этого рынка. В данный момент компания HPE, на фоне конкуренции с InfiniBand, ведет активную разработку новейших версий Slingshot, поэтому уже в ближайшие несколько лет индустрия суперкомпьютерных вычислений может увидеть передовой интерконнект Slingshot-800, который обеспечивает огромную пропускную способность и функционал следующего поколения.

Автор:

Serverflow