На конференции Hot Chips 2025 компания d-Matrix представила свою чиплетную архитектуру Corsair для вычислений в памяти, предназначенную для ускорения логического вывода в ИИ-ориентированных системах. Corsair является принципиально новым подходом к повышению производительности инференса ИИ за счет минимизации задержек.
Подробнее о Corsair
Главная особенность архитектуры Corsair заключается в комбинации вычислений в памяти и межсоединений с ультранизкой задержкой, что, по утверждению d-Matrix, делает ее самой эффективной платформой для логического вывода искусственного интеллекта на рынке. Технология особенно актуальна для задач с жесткими требованиями к задержкам, таких как обработка естественного языка и голосовой вывод запросов в реальном времени. Ключевым преимуществом системы является способность эффективно работать с большими языковыми моделями, где каждый токен требует доступа к памяти и загрузки весов. Архитектура оптимизирована для достижения высочайшей производительности даже при умеренных размерах пакетов данных, что критически важно для обеспечения оптимального уровня задержки.
Аппаратная платформа Corsair состоит из двух чипов, каждый из которых содержит 4 чиплета, изготовленных по 6-нм техпроцессу TSMC. Система оснащена 2 ГБ SRAM и поддерживает интерфейс PCIe 5.0 x16 для упрощения интеграции в стандартные серверные системы. В адаптерах Corsair располагается 256 ГБ памяти LPDDR5X, а специальные соединения позволяют объединять несколько карт с помощью пассивных мостов. Масштабируемость системы обеспечивается через иерархическую топологию All-to-All с задержкой D2D всего 115 нс. В стандартный сервер можно установить до 8 карт Corsair, используя сетевые адаптеры с задержкой 2 мкс для межсерверного взаимодействия.
Энергоэффективность архитектуры достигает 38 TOPS/Вт благодаря использованию блочных форматов чисел с плавающей запятой и поддержке 5-кратного сжатия весов. Матричный умножитель способен выполнять операции 64×64 в INT8 или 64×128 в INT4. Программная часть системы представлена платформой Aviator, оптимизированной для работы с большими языковыми моделями. Система демонстрирует впечатляющую производительность — время обработки одного токена для модели Llama* 3-70B составляет всего 2 мс.
Производительность Corsair при выводе модели Llama* 3-70B. Источник: ServeTheHome.
Еще одним инновационным аспектом является использование 3D-компоновки с размещением DRAM на кремниевой подложке под вычислительными чиплетами, что обеспечивает минимальное расстояние между памятью и процессором. Тепловой режим работы оптимизирован для предотвращения перегрева DRAM с плотностью теплового потока не более 0,3 Вт/мм².
Архитектура масштабирования систем на базе Corsair. Источник: ServeTheHome.
Выводы
Технология Corsair выглядит очень многообещающе на фоне других альтернативных решений для инференса моделей искусственного интеллекта. Конечно, их эффективность вряд ли сможет сравниться с ИИ-производительностью передовых ускорителей Nvidia и AMD, однако при использовании Corsair в малых корпоративных вычислительных средах, эти решения смогут обеспечить высочайшую скорость вывода нейросетей и минимальную задержку.
*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена
**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.