D-Matrix представила Corsair — ускорители для инференса ИИ в оперативной памяти

27.08.2025

~ 2 мин

270

Простой

Новости

Введение

На конференции Hot Chips 2025 компания d-Matrix представила свою чиплетную архитектуру Corsair для вычислений в памяти, предназначенную для ускорения логического вывода в ИИ-ориентированных системах. Corsair является принципиально новым подходом к повышению производительности инференса ИИ за счет минимизации задержек.

Подробнее о Corsair

Главная особенность архитектуры Corsair заключается в комбинации вычислений в памяти и межсоединений с ультранизкой задержкой, что, по утверждению d-Matrix, делает ее самой эффективной платформой для логического вывода искусственного интеллекта на рынке. Технология особенно актуальна для задач с жесткими требованиями к задержкам, таких как обработка естественного языка и голосовой вывод запросов в реальном времени. Ключевым преимуществом системы является способность эффективно работать с большими языковыми моделями, где каждый токен требует доступа к памяти и загрузки весов. Архитектура оптимизирована для достижения высочайшей производительности даже при умеренных размерах пакетов данных, что критически важно для обеспечения оптимального уровня задержки.

Архитектура ИИ-ускорителя Corsair. Источник: ServeTheHome.

Аппаратная платформа Corsair состоит из двух чипов, каждый из которых содержит 4 чиплета, изготовленных по 6-нм техпроцессу TSMC. Система оснащена 2 ГБ SRAM и поддерживает интерфейс PCIe 5.0 x16 для упрощения интеграции в стандартные серверные системы. В адаптерах Corsair располагается 256 ГБ памяти LPDDR5X, а специальные соединения позволяют объединять несколько карт с помощью пассивных мостов. Масштабируемость системы обеспечивается через иерархическую топологию All-to-All с задержкой D2D всего 115 нс. В стандартный сервер можно установить до 8 карт Corsair, используя сетевые адаптеры с задержкой 2 мкс для межсерверного взаимодействия.

Чиплетная архитектура ИИ-ускорителя Corsair

Чиплет ускорителя Corsair. Источник: ServeTheHome.

Энергоэффективность архитектуры достигает 38 TOPS/Вт благодаря использованию блочных форматов чисел с плавающей запятой и поддержке 5-кратного сжатия весов. Матричный умножитель способен выполнять операции 64×64 в INT8 или 64×128 в INT4. Программная часть системы представлена платформой Aviator, оптимизированной для работы с большими языковыми моделями. Система демонстрирует впечатляющую производительность — время обработки одного токена для модели Llama* 3-70B составляет всего 2 мс.

Производительность ИИ-ускорителя Corsair

Производительность Corsair при выводе модели Llama* 3-70B. Источник: ServeTheHome.

Еще одним инновационным аспектом является использование 3D-компоновки с размещением DRAM на кремниевой подложке под вычислительными чиплетами, что обеспечивает минимальное расстояние между памятью и процессором. Тепловой режим работы оптимизирован для предотвращения перегрева DRAM с плотностью теплового потока не более 0,3 Вт/мм².

Архитектура масштабирования систем на базе Corsair. Источник: ServeTheHome.

Выводы

Технология Corsair выглядит очень многообещающе на фоне других альтернативных решений для инференса моделей искусственного интеллекта. Конечно, их эффективность вряд ли сможет сравниться с ИИ-производительностью передовых ускорителей Nvidia и AMD, однако при использовании Corsair в малых корпоративных вычислительных средах, эти решения смогут обеспечить высочайшую скорость вывода нейросетей и минимальную задержку.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow