Moore Thread анонсирует MTT S5000: графические ускорители для китайских ИИ-фабрик

04.08.2025

~ 2 мин

709

Простой

Новости

Введение

Китайская компания Moore Threads, специализирующаяся на выпуске пользовательских и коммерческих графических процессоров, на мероприятии WAIC 2025 анонсировала новый ИИ-ускоритель MTT S5000. При тестировании в инференсе модели DeepSeek-V3 в режиме FP8 передовая видеокарта продемонстрировала генерацию 100 токенов в секунду, что в два раза превосходит показатели западных решений и почти в 10 раз превосходит эффективность инференса на китайских CPU.

Эффективность генерации токенов ИИ-ускорителя MTT S5000

Эффективность генерации токенов MTT S5000 в сравнении с эффективностью решений конкурентов. Источник: Baidu.

Подробнее о MTT S5000

Согласно отчету Moore Threads, четвертое поколение GPU MTT S5000 обзавелось новым режим вычислений FP8, тогда как ранние решения компании могли работать лишь в режимах FP16, BF16, FP32, FP64 и INT8. При этом, заявленная эффективность обучения модели DeepSeek-V3 в режиме вычислений FP8 на 30% выше, чем при использовании GPU предыдущего поколения.

Режимы вычислений, поддерживаемые MTT S5000

Режимы вычислений ИИ-ускорителя MTT S5000. Источник: Baidu.

Чжан Цзяньчжун, основатель и генеральный директор Moore Thread, заявил, что MTT S5000 отличается повышенной производительностью благодаря принципиально новому подходу к созданию графических ускорителей. Если решения MTT S3000, S4000 в большей степени опирались на увеличение производительности в рендеринге, моделировании и других задачах, требующих высочайшую графическую эффективность, то S5000 является универсальным GPU, который хорошо себя покажет как в графике, так и обучении/инференсе искусственного интеллекта. Универсальность MTT S5000 также обеспечивается обновлением проприетарного программного стека MUSA с открытым исходным кодом, в который были добавлены тензорный движок, высокопроизводительные и коммуникационные библиотеки muDNN, MCCL и внедрение совместимости с PyTorch.

Компоненты программного стека Moore Threads MUSA. Источник: Baidu.

Для оптимизации работы с графикой в MTT S5000 был добавлен движок видеокодека сверхвысокой четкости, новые механизмы физического моделирования и научных вычислений, продвинутый движок рендеринга 3D-графики с поддержкой современных графических API (в том числе DirectX12). Поскольку решение MTT S5000 все еще остается в разработке, даты выхода и более подробные характеристики ИИ-ускорителя не были раскрыты.

Подробнее о ИИ-фабриках Moore Threads

Помимо этого, компания Moore Threads объявила о своих планах создания такого передового решения, как ИИ-фабрики, аналогичные тем, которые продвигает компания Nvidia. Топология ИИ-фабрик Moore Threads будет иметь по 8 графических процессоров MTT S5000 на узел, которые коммуницируют межсоединением MTTLINK 2.0, благодаря чему каждый GPU в системе получит прямую шину соединения с остальными 7 графическими процессорами. MTTLINK 2.0 будет задействован не только в рамках узлов одной системы, но и между всеми вычислительными стойками в ИИ-фабрике. Чтобы минимизировать задержки и увеличить производительность кластера, система будет поддерживать технологию RDMA FC8, совместимую с проприетарными Smart NIC. Moore Threads планирует объединять от 10000 до 100000 GPU в рамках одной фабрики.

Топология отказоустойчивой ИИ-фабрики Moore Threads. Источник: Baidu.

Выводы

Moore Threads стала не первой компанией в Китае, которая намерена навязать конкуренцию Nvidia на местном рынке — ранее Huawei представила свои модульные кластерные решения CloudMatrix-384 для работы с передовыми моделями искусственного интеллекта, которая по производительности не отстает от систем на базе чипов Nvidia GB200. Глядя на это, а также попытки Nvidia вновь выйти на китайский рынок с облегченными чипами H20 и B30, можно предположить, что “зеленый монополист” на рынке ИИ чувствует приближающуюся потерю рынка КНР ввиду развития местных компаний, предлагающих собственные ИИ-решения с не менее высокой производительностью.

Автор:

Serverflow