Top.Mail.Ru
Китайский суперкомпьютер LineShine на базе ARM-CPU LX2 достигает 1,54 EFLOPS ИИ-производительности без GPU | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Китайский суперкомпьютер LineShine на базе ARM-CPU LX2 достигает 1,54 EFLOPS ИИ-производительности без GPU

~ 2 мин
23
Простой
Новости
Китайский суперкомпьютер LineShine на базе ARM-CPU LX2 достигает 1,54 EFLOPS ИИ-производительности без GPU

Введение

Национальный суперкомпьютерный центр Китая в Шэньчжэне развернул суперкомпьютер LineShine — передовой HPC-кластер LineShine с CPU-only архитектурой, обеспечивающий рекордную ИИ-производительность в 1,54 EFLOPS в режиме BF16. Система базируется на 40 960 китайских центральных процессоров LX2 на базе архитектуры Armv9 с суммарным количеством в 2,45 миллиона ядер. При этом огромная эффективность системы достигается без единого графического процессора китайских или западных разработчиков.

Подробнее о LineShine

Каждый процессор LX2 состоит из двух вычислительных чиплетов и содержит 304 ядра Armv9, организованных в восемь кластеров по 38 ядер. Ядра оснащены блоками векторного (SVE) и матричного (SME) расширения Arm, которые аппаратно ускоряют вычисления в форматах FP64, FP32, BF16, FP8 и INT8, критически важные для обучения ИИ и научного моделирования. Каждый центральный процессор LX2 обеспечивает производительность 60,3 TFLOPS на FP64, 240 TFLOPS на BF16/FP16 и 960 TFLOPS в INT8. Такой вычислительной мощности удается достичь благодаря крайне интересной подсистемы памяти — LX2 оснащены 32 ГБ памяти HBM с пропускной способностью до 4 ТБ/с и поддержкой до 256 ГБ внешней памяти DDR5 на один чип. Вся конструкция разбита на 16 доменов NUMA, а для перемещения данных между HBM и DDR используется движок SDMA. Китайские медиа не разглашают информации о том, кто именно стоит за разработкой чипов LX2, однако используемый продвинутый технологический указывает на то, что процессоры создала компания Huawei.

Всего в суперкомпьютере LineShine имеется до 20 480 вычислительных нод, в каждой из которых установлено по два центральных процессора LX2. Узлы связывает высокоскоростной интерконнект LingQi (LQLink) с пропускной способностью 1,6 Тбит/с на узел. Общая пиковая производительность машины на FP64 достигает 2,47 EFLOPS. На задачах обучения генеративной модели сжатия данных с 6,3 млрд параметров система продемонстрировала 2,16 TFLOPS в BF16. Эти показатели ставят LineShine в один ряд с самым мощным суперкомпьютером в публичном рейтинге TOP500 El Capitan c 1,809 EFLOPS в Linpack FP64 и теоретическими пиком 2,821 EFLOPS в том же режиме.

Архитектура центрального процессора LX2
Архитектура центрального процессора LX2. Источник: Baidu.

Архитектура CPU-only дает LineShine несколько принципиальных преимуществ перед гетерогенными GPU-кластерами. Во-первых, исчезает главная проблема гетерогенных систем — дорогостоящая пересылка данных между CPU и GPU, которая часто становится узким горлышком инфраструктуры. Во-вторых, единое пространство памяти объемом до 256 ГБ DDR5 плюс 32 ГБ HBM на каждый процессор позволяет оперировать огромными научными наборами данных и длинными контекстными окнами без фрагментации. В-третьих, однородная архитектура органично вписывается в традиционные HPC-окружения и одинаково хорошо справляется как с тренировкой ИИ, так и с классическим моделированием.

Однако ключевой компромисс состоит в том, что системы только на CPU уступают GPU-аналогам по энергоэффективности и чистой ИИ-производительности. Для сравнения, GPU-кластер Colossus от xAI на базе сотен тысяч ИИ-ускорителей Nvidia обладает теоретическим пиком производительности в 497,9 EFLOPS, что многократно превосходит показатели LineShine. Именно поэтому глобальная индустрия по-прежнему делает ставку на гибридные архитектуры CPU+GPU, а путь Китая — вынужденная адаптация к санкционной реальности.

Выводы

LineShine наглядно демонстрирует, что санкционное давление подталкивает Китай к созданию мощных, хоть и компромиссных вычислительных решений. Система на 2,45 миллиона ядер Armv9 не превосходит топовые GPU-кластеры по пиковой производительности, но закрывает потребности в научных расчетах и обучении ИИ, одновременно ликвидируя зависимость от западных ускорителей и экосистемы CUDA. Для Китая LineShine — это не просто научный инструмент, а стратегический полигон, на котором отрабатывается полный цикл создания экзафлопсных систем без оглядки на американские чипы.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)