Huawei CloudMatrix 384 превзошел системы Nvidia в инференсе DeepSeek R1

02.07.2025

~ 2 мин

Простой

Новости

Введение

ИИ-кластер Huawei CloudMatrix 384 на базе китайских NPU Ascend 910C и CPU Kunpeng продемонстрировал производительность, ранее считавшуюся недостижимой без флагманских решений Nvidia. Согласно отчетам компании Huawei и стартапа SiliconFlow, система превзошла даже китайские ИИ-кластеры на базе экспортных ускорителей Nvidia H800, так и кластер с топовыми H100 при работе с языковой моделью DeepSeek R1.

Подробнее о Huawei CloudMatrix 384

Архитектура кластера объединяет 384 двухчиповых модуля Ascend 910C, размещенных в 16 серверных стойках, и 192 центральных процессоров Kunpeng. Компоненты связаны высокоскоростной оптоволоконной сетью MatrixLink, обеспечивающей минимальные задержки при передаче данных. Эта конструкция стала инженерным ответом на технологические ограничения Китая: Huawei компенсировала отсутствие доступа к передовым полупроводникам для обучения ИИ масштабированием вычислительной мощности своего кластера.

Выпуск системы Huawei CloudMatrix 384 имеет важную стратегическую цель — доказать конкурентоспособность китайских NPU на фоне передовых Западных GPU. А Технические характеристики системы подтверждают потенциал NPU-чипов: пиковая производительность кластера достигает 300 PFLOPS в BF16 против 180 PFLOPS у системы Nvidia GB200 NVL72 в том же режиме вычислений. Программный фреймворк CloudMatrix-Infer также демонстрирует превосходную эффективность обработки LLM:

4,45 токена/с на один TFLOPS при обработке запросов.
1,29 токена/с на один TFLOPS при генерации ответов.

Примечательно, что CloudMatrix 384 также можно использовать для формирования суперкластеров, которые включают суммарно свыше 160,000 NPU, тогда как у мощнейших ИИ-кластеров на базе решений Nvidia максимальное количество GPU в рамках одной системы не превышает 131,072 штук.

Выводы

Несмотря на столь высокую производительность, главным компромиссом системы CloudMatrix 384 стала энергоэффективность — кластер потребляет огромное количество энергии до 559 кВт. Этот показатель превышает энергопотребление системы GB200 NVL72 (145 кВт) в 3,85 раза. Помимо этого, также страдает энергоэффективность системы, обеспечивая 2,3 раза меньшую производительность на ватт, чем Nvidia GB200 NVL72. Однако для китайского рынка, ограниченного санкциями, этот фактор не так важен. Относительно низкие тарифы на электроэнергию в КНР (падение на ~40% за три года) делают эксплуатацию даже таких ресурсоемких систем экономически и стратегически оправданной.

Автор:

Serverflow

Huawei CloudMatrix 384 превзошел системы Nvidia в инференсе DeepSeek R1

Введение

Подробнее о Huawei CloudMatrix 384

Выводы

Комментарии 0