Мы уже рассказали вам о секретном китайском суперкомпьютере Tianhe-3, который с уверенностью можно назвать мощнейшим HPC-кластером в Поднебесной. Однако на нем козыри КНР не заканчиваются и в стране есть еще несколько высокопроизводительных и публичных суперкомпьютеров, которые по эффективности практически не уступают системе Tianhe-3. Одной из таких передовых китайских платформ является суперкомпьютер Sunway OceanLight. В этой статье мы поговорим о том, что из себя представляет HPC-кластер Sunway OceanLight, из каких компонентов он состоит, каких показателей производительности он достигает и где применяются его революционные мощности.
Sunway OceanLight — это суперкомпьютер экзафлопсного класса 2023 года создания, который состоит из 96,000 узлов и является вторым по производительности китайским HPC-кластером после секретного Tianhe-3. За созданием этого суперкомпьютера стоит небезызвестный Национальный исследовательский центр параллельной компьютерной инженерии и технологий (NRCPC), который является ведущим НИИ Китая в сфере разработки передовых суперкомпьютерных систем. Sunway OceanLight базируется в Национальном суперкомпьютерном центре в городе Уси, который считается ведущим IT-хабом в Китае и собрал в себе свыше 3000 предприятий из сектора IoT. В этом же суперкомпьютерном центре ранее располагался предшественник кластера Sunway OceanLight — система Sunway TaihuLight, которая с 2016 по 2018 годы занимала первое место в рейтинге TOP500. По сути, оба этих суперкомпьютера являются одним целым, поскольку TaihuLight стал основой для построения OceanLight, а главные отличия между системами заключаются именно в количестве узлов и ядер. Однако в отличие от TaihuLight система OceanLight не входит в рейтинг TOP500, поскольку Китай принял решение не выдвигать его кандидатуру из-за опасений, что это привлечет внимание регулирующих органов США и вызовет новые санкции против страны.
Китайский суперкомпьютер Sunway TaihuLight, на базе которого построена HPC-система OceanLight. Источник: .
Центральные процессоры
Ключевым компонентом любого суперкомпьютера является центральный процессор, и Sunway OceanLight не стал исключением. Этот суперкомпьютер базируется на китайских 390-ядерных процессорах SW26010-Pro от компании Sunway, которая специализируется на выпуске оборудования исключительно для сектора HPC. Чипы SW26010-Pro представляют собой улучшенную версию процессоров SW26010.
Процессор для суперкомпьютеров Shenwei SW26010. Источник: .
Процессоры SW26010-Pro, произведенные по 14-нм техпроцессу SMIC, вряд ли можно назвать традиционными CPU, которые мы привыкли видеть в серверных системах. Во-первых, SW26010-Pro изначально разрабатывался для интеграции в суперкомпьютерные ноды и не предполагает использование в других вычислительных системах. Во-вторых, чип SW26010-Pro базируется на уникальной архитектуре ShenWei-64, которая разработана компанией Sunway и является эволюцией платформы Alpha с набором инструкций RISC. В-третьих, SW26010-Pro имеет весьма необычную аппаратную архитектуру, которая состоит из двух групп ядер:
1 кластер Management Processing Element (MPE), ядра которого работают на частоте 2,1 ГГц и отвечают за управление ядрами CPE и коммуникацию между ними. MPE поддерживают функцию прерывания операций и их повторное выполнение, а также, вероятно, имеют увеличенный L2-кэш. Всего приходится 6 ядер MPE на один процессор SW26010-Pro.
64 кластеров Compute Processing Elements (CPE) по 6 ядер на кластер, организованных в 8x8 сетку. Каждое ядро CPE работает на частоте 2,25 ГГц, что на 55% выше, чем у предыдущей модели SW26010.
Структура ядер MPE в процессоре SW26010-Pro. Источник: .
В общей сложности процессор SW26010-Pro имеет 390 ядер: 384 CPE (вычислительных) и 6 MPE (управляющих). Всего в суперкомпьютере Sunway OceanLight используется около 54,348 процессоров SW26010-Pro (21 миллион ядер), за счет которых и обеспечивается высочайший уровень производительности системы до 1.51 EFLOPS (FP64). Зная это, можно провести простые расчеты производительности CPU SW26010-Pro, согласно которым каждый процессор обеспечивает эффективность в 27,6 TFLOPS. Также не будет лишним отметить, что чипы SW26010-Pro способны выполнять до 16 инструкций за 1 такт (FP32), что в 4 раза превышает количество исполняемых инструкций предшественника, свидетельствуя о значительном технологическом рывке между поколениями CPU. Такой прирост обуславливается тем, что инженеры Sunway внедрили в процессор SW26010-Pro векторные блоки 512-bit с поддержкой SIMD-инструкции переменной длины (128–1024 бит).
Сравнение аппаратной архитектуры процессоров SW26010-Pro и SW26010. Источник: .
Интересно, что система Sunway OceanLight в области аппаратной части является полностью гомогенной, поскольку помимо центральных процессоров SW26010-Pro, в суперкомпьютере не используются какие-либо ускорители вычислений, вроде GPU, FPGA или других сопроцессоров. Другими словами, вся вычислительная нагрузка OceanLight ложится на высокопроизводительные плечи SW26010-Pro.
Структура центрального процессора Sunway SW26010-Pro c рекордным количеством ядер в 390 штук. Источник: .
Память
Структура памяти суперкомпьютера Sunway OceanLight не менее интересна, чем его процессоры. HPC-кластер не использует высокоскоростную память типа HBM, которая характерна для большинства современных суперкомпьютеров. Дело в том, что на момент построения Sunway OceanLight, поставка чипов памяти HBM в Китай обходилась крайне дорого, а также США постепенно начинали вводить ограничения на поставку передового оборудования для разработки суперкомпьютеров и ИИ-систем в КНР. Логично было бы предположить, что Sunway OceanLight работает на GDDR-памяти, которая также обеспечивает высокую скорость обработки больших объемов данных, но на деле китайский HPC-кластер базируется на памяти типа DDR4. Каждый процессор имеет 96 ГБ памяти, распределенных по шести группам ядер, с 16 ГБ на группу и пропускной способностью 51,2 ГБ/с на группу, что в общей сложности дает общую пропускную способность в 307,2 ГБ и задержку менее 0,2 мкс.
Сетевая инфраструктура
Сетевая инфраструктура суперкомпьютера Sunway OceanLight, подобно системам на базе InfiniBand, полностью проприетарна и оптимизирована для выполнения задач, требующих высокого параллелизма и минимизации задержек. Sunway не раскрывает подробной информации о том, какой именно интерконнект используется в системе, однако есть сведения, что он базируется на сочетании топологий Fat Tree и HyperCube — эта топология получила условное название Pan-Tree. Ее особенность заключается в том, что на нижнем уровне узлы объединены в группы "суперузлы" по 256 процессоров, внутри которых применяется неблокирующая коммутация. На верхнем уровне суперузлы объединяются друг с другом через высокоскоростные магистральные коммутаторы, разработанные NRCPC для поддержки топологии Pan-Tree. Эти коммутаторы, подобно интерконнекту Slingshot, поддерживают аппаратную балансировку нагрузки для динамического перераспределения трафика при перегрузках сети, а также способны ускорять выполнение операций машинного обучения. Предполагаемая общая пропускная способность этого интерконнекта достигает 500 ТБ/с, а задержка равна 1,5 мкс. Также известно, что на уровне ядер соединение выполнено через систему Network on Chip (NoC), а сам процессор SW26010-Pro подключается к двум выделенным сетевым интерфейсам, напрямую подключенным к топологии Pan-Tree, что исключает необходимость в интеграции дополнительных сетевых адаптеров.
Схема работы технологии Network on Chip (NoC), которая соединяет ядра процессоров SW26010-Pro в суперкомпьютере OceanLight. Источник: .
Производительность и энергопотребление
Производительность суперкомпьютера Sunway OceanLight впечатляет не меньше, чем эффективность секретного Tianhe-3. Как было сказано выше, теоретический пик производительность (FP64) составляет около 1,51 EFLOPS, а практическая производительность доходит до 1,22 EFLOPS. Это говорит о том, что при попадании в TOP500 кластер Sunway OceanLight вполне мог бы занять четвертое место в топ-10 лучших суперкомпьютеров в мире, обогнав систему JUPITER Booster на базе ИИ-ускорителей Nvidia.
В тесте HPL смешанной точности (FP32) Sunway OceanLight смог обеспечить 5 EFLOPS производительности, что даже превышает значения системы Tianhe-3, которая обеспечивает 4,4 EFLOPS при том же режиме работы. Помимо синтетических тестов, суперкомпьютер OceanLight также поверили при работе с реальными приложениями, вроде симуляции Рамановских спектров, в ходе которых китайский HPC-кластер показал производительность в 468,5 PFLOPS (FP64) и 813,7 PFLOPS (FP32). Однако OceanLight имеет не только выдающуюся производительность, но и немалое энергопотребление, которое достигает 35 МВт (35 GFLOPS/Вт). Этот показатель немного превышает потребление Tianhe-3 с 34,8 МВт, что удивительно, поскольку системы на базе памяти DDR4 обычно отличаются несколько большим энергопотреблением. Несмотря на это, нельзя не заметить, что большинство китайских суперкомпьютеров не отличаются большой энергоэффективностью. Это обуславливается тем, что в китайских HPC-системах акцент делается именно на высокую производительность для выполнения научных вычислений, оборонных задач и других критически важных операций, о которых мы поговорим ниже.
Сфера применения
Поскольку Китай не скрывает существования Sunway OceanLight, общественности известно, для каких целей используется этот передовой суперкомпьютер:
Обучение ИИ. В данный момент суперкомпьютер OceanLight активно используется для обучения китайской ИИ-модели BaGuaLu с рекордным количеством параметров в 174 триллиона. Эта модель применяется для обучения более мелких нейросетей, применяемых в системах автономного транспорта, системах компьютерного знания и языковых ИИ-моделях.
Научные вычисления. В 2021 году OceanLight использовался для опровержения производительности квантовых процессоров Google Sycamore, за что китайские ученые из NRCPC удостоились почетной премии Gordon Bell Prize. Кроме того, во время пандемии COVID-19 система OceanLight ускорила поиск ингибиторов вируса, сократив время анализа с недель до нескольких часов, а также суперкомпьютер до сих пор применяется для расчетов взаимодействия ДНК с белками для производства противораковых лекарств. Еще одно научное применение OceanLight — глобальное моделирование изменений климата с разрешением до 1 км, включая прогноз стихийных бедствий.
Оборонные задачи. Как и многие другие китайские HPC-кластеры, OceanLight также задействован в выполнении военных задач КНР, в частности, система тестирует устойчивость шифровальных алгоритмов (серия SM), рассчитывает ядерные реакции в атомных бомбах без реальных испытаний и анализирует кибер-уязвимости в энергетических, транспортных и военных сетевых инфраструктурах Китая.
Выводы
Суперкомпьютер Sunway OceanLight доказывает на своем примере, что Китай очень силен в области создания передовых HPC-кластеров, причем не только на базе ARM-решений, но и с использованием кастомных архитектур CPU с RISC-инструкциями. А с учетом того, что компания Sunway уже успела выпустить несколько поколений HPC-процессоров линейки SW, не исключено, что в будущем страна сможет создать еще более совершенные, высокопроизводительные суперкомпьютеры. И если бы эти передовые HPC-системы смогли попасть в TOP500, общественность бы точно удивилась, как уникальные китайские решения на равных конкурируют с традиционными суперкомпьютерами на базе оборудования AMD EPYC, Intel Xeon и Nvidia Grace.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.