В сфере высоких вычислений существует большое количество RDMA-систем, большинство из которых мы уже разобрали в отдельных статьях. Многим может показаться, что большинство современных суперкомпьютерных кластеров базируются на сетевой инфраструктуре технологии InfiniBand, так как она обеспечивает минимальные задержки и самую высокую пропускную способность среди RDMA-реализаций, что критически важно для HPC-MPI. Однако, на деле передовые суперкомпьютерные кластеры используют специальный, проприетарный интерконнект под названием Slingshot, разработанный компанией Cray. В этой статье мы расскажем вам, что из себя представляет технология Slingshot, как она появилась, в чем ее особенности и какое оборудование ее поддерживает.
Что такое Slingshot?
Slingshot — это проприетарная сетевая экосистема и одноименный интерконнект, разработанный компанией HPE (Cray) и ориентированный на использование в суперкомпьютерных кластерах экзафлопсного класса для передачи данных (MPI-трафика) между узлами HPC-кластера. Инфраструктура на базе Slingshot обеспечивает высокую пропускную способность до 400 Гбит/с, низкую задержку менее 1 мкс и обратную совместимость со стандартным протоколом Ethernet (через HPC-Ethernet).
Аппаратная архитектура вычислительной платформы HPE Cray EX с поддержкой интерконнекта Slingshot. Источник: .
Отметим, что мы будем указывать показатели задержек именно при передаче MPI-трафика, поскольку именно этот тип данных преобладает в суперкомпьютерных вычислениях при связи между узлами HPC-кластера.
Для того, чтобы добиться столь минимальных показателей задержки, разработчики интерконнекта интегрировали в экосистему Slingshot поддержку особой топологии Dragonfly с высокой связностью. Эта уникальная топология минимизирует количество хопов между узлами до 2–3 даже в огромных кластерах на 250 тысяч и более узлов, что и позволяет достичь настолько низкой латентности. Кроме того, оборудование, совместимое с технологией Slingshot, базируется на собственных ASIC-микросхемах Rosetta, которые могут встраиваться как в NIC, так и свичи.
Blade-коммутатор с поддержкой интерконнекта Slingshot-11. Источник: .
Еще одно неоспоримое преимущество технологии Slingshot является наличие функций адаптивной маршрутизации и алгоритмов контроля перегрузок, которые динамически снижают нагрузку на сетевые пути при передачи трафика до 95% и позволяют обходить наиболее нагруженные участки сети, что стало возможным благодаря использованию ASIC Rosetta. Благодаря этим функциям технологии Slingshot удается конкурировать с протоколом InfiniBand в секторе HPC. Но не стоит списывать разработки NVIDIA со счетов — компания интегрирует в собственные HPC-кластеры передовые суперчипы Grace-Hooper, тем самым популяризируя экосистему решений с поддержкой протокола InfiniBand. Тем не менее, компания HPE не собирается сдавать позиции, и использует свой авторитет в области суперкомпьютерных вычислений, агрессивно продвигая собственные HPC-платформы HPE Cray EX на базе интерконнекта Slingshot, которые нередко становятся лидерами рейтинга TOP500.
Архитектура ASIC-микросхемы Rosetta, которая используется в коммутаторах Slingshot-11 200 Гбит/с. Источник: .
Пока конкуренция в мире суперкомпьютеров накаляется до предела, новый рейтинг TOP500 удивил всех: в центре внимания оказался Alps, построенный на передовой платформе HPE Cray EX254n, где суперчипы NVIDIA Grace Hopper работают в связке со Slingshot.
HPE объявляет о своих планах на внедрение CPU и GPU от компании Nvidia в 2025 году. Источник: .
История развития Slingshot
Технология Slingshot была создана в 2019 году легендарной американской компанией Cray, которая специализируется на поставке решений для сектора суперкомпьютерных вычислений. Cray появилась еще в 1972 году, а ее основателями стали выходцы из проекта Control Data Corporation (CDC), создавшие первый в мире суперкомпьютер CDC 6600 в 1963 году. Отделившись от CDC, основатель организации Сеймур Крэй создал собственную компанию Cray, которая впоследствии выпустила один из первых HPC-кластеров Cray-1.
Первый суперкомпьютер компании Cray под названием Cray-1. Источник: .
Ввиду этого неудивительно, что именно компания Cray ответственна за выпуск передового интерконнекта Slingshot, который в настоящее время является основным стандартом для разработки передовых HPC-кластеров. В 2019 году, сразу после выпуска первой массовой версии Slingshot-10, компания Cray была выкуплена корпорацией HPE, ввиду чего патент на интерконнект перешел в новые руки. В целом, инициатива создания Slingshot была начата еще в конце 2010-х годов, когда производительность передовых суперкомпьютеров стала стремительно расти, поэтому индустрии требовалось инновационное решение для обеспечения максимальной масштабируемости, пропускной способности и минимизации задержек. Однако до выхода Slingshot, компания Cray представила целый ряд различных интерконнектов, наработки из которых впоследствии использовались при разработке Slingshot.
Cray X1 (2002–2004). Первый интерконнект Cray, использовавшийся в одноименных суперкомпьютерных платформах. Основан на проприетарной архитектуре с топологией “2D torus” и поддерживал скорость передачи данных до 6,4 Гбит/с на узел. Cray X1 применялся в системах для метеорологии и научных центрах.
SeaStar (2004–2007). Разработан для серии платформ суперкомпьютеров Cray XT3/XT4. Использовал топологию 3D-tor, имел скорость передачи данных 9,6 Гбит/с и обеспечивал задержки от 5 до 10 мкс. Ключевая особенность SeaStar — в нем впервые появилась аппаратная поддержка MPI-трафика. SeaStar использовался в суперкомпьютере Jaguar (Oak Ridge), производительность которого достигала 1,75 PFLOPS в 2010 году.
Gemini (2010–2012). Создан для платформы Cray XE6. В этой версии интерконнекта впервые появилась топология Dragonfly, а пропускная способность увеличилась до 10 Гбит/с. Также Gemini стал первым интерконнектом, который внедрил систему адаптивной маршрутизации, что позволило снизить задержки в передаче данных до 3 мкс. Использовался в суперкомпьютере Titan с производительностью 17.6 PFLOPS.
Aries (2012–2019). Флагманское решение для платформы Cray XC40. Использование интерконнекта Aries позволило увеличить скорость портов до 25 Гбит/с. Как и предшественник в лице Gemini, интерконнект Aries базировался на топологии Dragonfly. Применялся в системах типа Cascade (суперкомпьютер Пентагона) и Shaheen II. В 2012 году технология Aries была продана компании Intel для разработки интерконнекта Omni-Path.
Slingshot-10 (2019–2021): Первая массовая версия интерконнекта от компании Cray с пропускной способностью до 100 Гбит/с. Slingshot-10 поддерживает стандартный протокол Ethernet, базовые механизмы управления перегрузками. Slingshot-10 применялся в ранних версиях систем линейки HPE Cray EX.
Slingshot-11 (2021–2023): Передовая версия интерконнекта с удвоенной пропускной способностью до 200 Гбит/с. Slingshot-11 поддерживает адаптивную маршрутизацию и аппаратное ускорение MPI-трафика, обеспечивая задержки около 1,8 мкс. Именно эта версия интерконнекта Cray легла в основу суперкомпьютера Frontier (США), который стал первым HPC-решением, которое достигло производительности 1,194 EFLOPS. Slingshot-11 до сих пор используется в передовых суперкомпьютерных кластерах, которые вошли в недавнее июньское обновление рейтинга TOP500 2025.
В 2024 году компания HPE также представила новейшую версию интерконнекта Slingshot, в которой была удвоена пропускная способность до 400 Гбит/с, скорость ASIC-чипа (предположительно Rosetta 2) увеличена до 51,2 Тбит/с, а задержки удалось снизить до менее 1 мкс. Технология будет применяться в новейших суперкомпьютерных платформах HPE Cray EX4000, однако первые HPC-решения на базе этих передовых систем, скорее всего, появятся не ранее ноября 2025 / июня 2026 года. С учетом тенденции удвоения пропускной способности, можно предположить, что будущее поколение интерконнектов Slingshot будет называться Slingshot-800, а его скорость передачи данных достигнет 800 Гбит/с.
Концепция HPC Ethernet
Помимо ключевых аппаратных технологий, низкие задержки интерконнекта Slingshot также достигаются благодаря использованию уникального сетевого протокола, который был специально разработан компанией Cray для минимизации латентности и обеспечения совместимости своей технологии со стандартной Ethernet-инфраструктурой. Этот сетевой протокол называется HPC-Ethernet.
Протокол HPC-Ethernet — это оптимизированная версия стандартного Ethernet, которая гарантирует отсутствие потери пакетов, микросекундные задержки и высокую пропускную способность. Рассмотрим ключевые особенности этого протокола:
Алгоритмы zero-loss. Эти алгоритмы динамически анализируют трафик, определяя возможность перегрузки и регулируют параметры передачи данных в реальном времени, исключая потерю пакетов даже при нагрузке на сеть свыше 90%.
Интеграция с RDMA. Поддержка RDMA-функций снижает нагрузку на CPU за счет прямого доступа к памяти, обхода ядра ОС и аппаратной обработки трафика, что ускоряет обмен данными в HPC-кластерах.
Топологическая гибкость. Совместим с масштабируемыми топологиями Dragonfly в Slingshot, что сокращает число "хопов" между узлами до 2–3.
Совместимость с Loseless Ethernet
Одна из главных особенностей протокола HPC Ethernet — полная поддержка функций более распространенной сетевой среды Lossless Ethernet (используется в RoCEv2), благодаря чему протокол гарантирует нулевую потерю пакетов, при этом оптимизируя их для экстремальных нагрузок индустрии суперкомпьютерных вычислений. В частности, HPC Ethernet поддерживает такие функции, как PFC (Priority Flow Control) и ECN (Explicit Congestion Notification), которые динамически управляют трафиком при перегрузках. Поддержка реализована на аппаратном уровне в ASIC-чипах Rosetta, где технологии Lossless Ethernet сочетаются с адаптивной маршрутизацией и алгоритмами контроля перегрузок. Это позволяет Slingshot работать в гибридных инфраструктурах (например, RoCEv2/HPC-Ethernet), обеспечивая полную синхронизацию между узлами. Однако интеграция HPC Ethernet в инфраструктуру Lossless Ethernet приведет к росту задержек ввиду необходимости в дополнительной обработке сетевого трафика в целях минимизации потери пакетов, однако при обработке MPI-трафика этот недостаток исключен.
Совместимость с Ethernet
HPC Ethernet также сохраняет полную обратную совместимость с традиционным Ethernet. На физическом уровне используются те же кабельные системы (оптика и DAC 100/400GbE) и коммутаторы, а на протокольном — поддерживается стек TCP/IP, UDP и сокеты POSIX. Главное отличие между протоколами заключается в программно-аппаратных оптимизациях и поддержке RDMA-функций: например, сетевые адаптеры в Slingshot автоматически активируют режим kernel bypass для HPC-трафика (через библиотеки libfabric), перенаправляя данные напрямую в пользовательское пространство и снижая задержки менее 1 мкс, тогда как обычный Ethernet трафик обрабатывается стандартным путем через ядро ОС, что вызывает рост задержек. Вследствие этого, HPC Ethernet потеряет все свои преимущества при интеграции в традиционную инфраструктуру Ethernet.
Важность топологии DragonFly
Для достижения настолько низких задержек при передаче MPI-трафика, было бы недостаточно создания использования передовых аппаратных и программных систем. Компания Cray приняла решение использовать уникальную разработку профессора Джона Кима — сетевую топологию Dragonfly (“стрекоза”).
Dragonfly — особая сетевая структура, оптимизированная для суперкомпьютеров с десятками тысяч узлов. Главная особенность Dragonfly — минимизация диаметра сети (максимального числа переходов между любыми узлами), что радикально снижает задержки и стоимость возведения вычислительной инфраструктуры. Архитектура организует узлы в группы, внутри которых соединение выстраивается через дешевые и эффективные медные кабели, а между группами соединение происходит посредством оптических кабелей с высокой пропускной способностью. Каждая группа функционирует как маршрутизатор для других групп, что сокращает необходимость в интеграции дорогостоящих Director-коммутаторов.
Описание особенностей топологии Dragonfly. Источник: .
Примечательно, что у топологии Dragonfly есть уязвимость в лице риска перегрузок глобальных путей трафика при отсутствии балансировки нагрузки между группами, но именно для устранения этого недостатка компания Cray интегрировала в ASIC-чипы Rosetta функцию адаптивной маршрутизации. В сочетании с поддержкой протокола HPC Ethernet это позволяет топологии Dragonfly масштабироваться даже до систем с производительностью в 1 ZFLOPS (зеттафлопс). Несмотря на конкуренцию с более традиционными топологиями, такими как Fat-Tree и Hypercube, Dragonfly остается доминирующей технологией в рейтинге лучших суперкомпьютеров TOP500 благодаря балансу стоимости, энергоэффективности и низкой задержке, оставаясь главным стандартом для сферы экзафлопсных вычислений.
Визуализация топологии Dragonfly. Источник: .
Совместимое оборудование
Все оборудование с поддержкой интерконнекта Slingshot выпускается производственными мощностями компании HPE, в том числе ASIC-микросхемы для создания совместимых сетевых карт и коммутаторов. Рассмотрим, с каким оборудованием для сектора суперкомпьютерных вычислений совместим интерконнект Slingshot.
Сетевые карты
Сетевые карты с поддержкой Slingshot представлены решениями Cassini NIC. Эти сетевые карты обеспечивают передачу данных со скоростью от 200 Гбит/с до 400 Гбит/с, имеют задержки менее 1 мкс, а также поддерживают функционал RDMA и Lossless Ethernet за счет использования ASIC-чипов Rosetta. Карты интегрируются в системы на базе процессоров AMD EPYC и ИИ-ускорителей от Nvidia или AMD, например, в суперкомпьютерах El Capitan и Frontier.
PCIe-карта HPE Slingshot SA210S Cassini NIC 200 Gb/s с поддержкой технологии Slingshot-11. Источник: .
Коммутаторы
Коммутаторы Slingshot, такие как HPE Slingshot 64-port QSFP-DD (200/400 Гбит/с) и блейд-версии для шасси HPE Cray EX, также построены на специализированных чипах Rosetta ASIC с пропускной способностью до 51,2 Тбит/с. Коммутаторы Slingshot поддерживают до 64 портов с оптическими интерфейсами QSFP-DD. Ключевые особенности включают поддержку адаптивной маршрутизации и механизмы предотвращения перегрузок сети без потерь пакетов. Коммутаторы поддерживают гибридные режимы работы: HPC Ethernet для MPI-трафика и стандартный Ethernet для периферийных задач. Для интеграции этих коммутаторов используются специализированные кабели HPE Slingshot L0, обеспечивающие минимальное затухание сигнала в оптических магистралях.
Полуфотонный коммутатор HPE Slingshot-400, продемонстрированный на конференции SC24. Источник: .
Выводы
Несмотря на то, что интерконнект Slingshot все же проигрывает протоколу InfiniBand по пропускной способности (400 Гбит/с против 800 Гбит/с), передовая разработка компании Cray и ее уникальные элементы, такие как сверхмасштабируемая топология DragonFly, минимальные задержки и адаптивная маршрутизация, обеспечивают доминацию Slingshot в секторе HPC. Тем не менее, компания Nvidia наращивает свое влияние в сфере создания передовых суперкомпьютеров, поэтому не исключено, что со временем решения на базе протокола InfiniBand будут занимать все большую и большую долю этого рынка. В данный момент компания HPE, на фоне конкуренции с InfiniBand, ведет активную разработку новейших версий Slingshot, поэтому уже в ближайшие несколько лет индустрия суперкомпьютерных вычислений может увидеть передовой интерконнект Slingshot-800, который обеспечивает огромную пропускную способность и функционал следующего поколения.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.