На конференции Hot Chips 2025 компания d-Matrix представила свою чиплетную архитектуру Corsair для вычислений в памяти, предназначенную для ускорения логического вывода в ИИ-ориентированных системах. Corsair является принципиально новым подходом к повышению производительности инференса ИИ за счет минимизации задержек.
Подробнее о Corsair
Главная особенность архитектуры Corsair заключается в комбинации вычислений в памяти и межсоединений с ультранизкой задержкой, что, по утверждению d-Matrix, делает ее самой эффективной платформой для логического вывода искусственного интеллекта на рынке. Технология особенно актуальна для задач с жесткими требованиями к задержкам, таких как обработка естественного языка и голосовой вывод запросов в реальном времени. Ключевым преимуществом системы является способность эффективно работать с большими языковыми моделями, где каждый токен требует доступа к памяти и загрузки весов. Архитектура оптимизирована для достижения высочайшей производительности даже при умеренных размерах пакетов данных, что критически важно для обеспечения оптимального уровня задержки.
Архитектура ИИ-ускорителя Corsair. Источник: .
Аппаратная платформа Corsair состоит из двух чипов, каждый из которых содержит 4 чиплета, изготовленных по 6-нм техпроцессу TSMC. Система оснащена 2 ГБ SRAM и поддерживает интерфейс PCIe 5.0 x16 для упрощения интеграции в стандартные серверные системы. В адаптерах Corsair располагается 256 ГБ памяти LPDDR5X, а специальные соединения позволяют объединять несколько карт с помощью пассивных мостов. Масштабируемость системы обеспечивается через иерархическую топологию All-to-All с задержкой D2D всего 115 нс. В стандартный сервер можно установить до 8 карт Corsair, используя сетевые адаптеры с задержкой 2 мкс для межсерверного взаимодействия.
Чиплет ускорителя Corsair. Источник: .
Энергоэффективность архитектуры достигает 38 TOPS/Вт благодаря использованию блочных форматов чисел с плавающей запятой и поддержке 5-кратного сжатия весов. Матричный умножитель способен выполнять операции 64×64 в INT8 или 64×128 в INT4. Программная часть системы представлена платформой Aviator, оптимизированной для работы с большими языковыми моделями. Система демонстрирует впечатляющую производительность — время обработки одного токена для модели Llama* 3-70B составляет всего 2 мс.
Производительность Corsair при выводе модели Llama* 3-70B. Источник: .
Еще одним инновационным аспектом является использование 3D-компоновки с размещением DRAM на кремниевой подложке под вычислительными чиплетами, что обеспечивает минимальное расстояние между памятью и процессором. Тепловой режим работы оптимизирован для предотвращения перегрева DRAM с плотностью теплового потока не более 0,3 Вт/мм².
Архитектура масштабирования систем на базе Corsair. Источник: .
Выводы
Технология Corsair выглядит очень многообещающе на фоне других альтернативных решений для инференса моделей искусственного интеллекта. Конечно, их эффективность вряд ли сможет сравниться с ИИ-производительностью передовых ускорителей Nvidia и AMD, однако при использовании Corsair в малых корпоративных вычислительных средах, эти решения смогут обеспечить высочайшую скорость вывода нейросетей и минимальную задержку.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.