Top.Mail.Ru
AMD и Intel представили ACE — единый стандарт матричного ускорения для x86-процессоров | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

AMD и Intel представили ACE — единый стандарт матричного ускорения для x86-процессоров

~ 2 мин
33
Простой
Новости
AMD и Intel представили ACE — единый стандарт матричного ускорения для x86-процессоров

Введение

В рамках инициативы x86 Ecosystem Advisory Group (EAG), созданной AMD и Intel в конце 2024 года для укрепления экосистемы x86 перед лицом конкуренции со стороны ARM и RISC-V, компании опубликовали финальную спецификацию ACE (AI Compute Extensions). ACE позиционируется как стандартная матричная архитектура ускорения для всех будущих x86-процессоров — от ноутбуков до серверов центров обработки данных. По заявлению разработчиков, плотность вычислений ACE в 16 раз выше по сравнению с AVX10, а поддержка форматов данных OCP MX реализована впервые среди коммерческих процессорных архитектур.

Подробнее о спецификации ACE

Матричное умножение является основой нейронных сетей и больших языковых моделей. Традиционные SIMD-расширения, такие как AVX10, могут выполнять эту операцию, однако их масштабируемость и вычислительная плотность ограничены. ACE решает эту проблему, вводя новый подход на основе outer-product операций.

Вместо одномерной обработки данных, характерной для AVX, ACE использует восемь новых двумерных Tile-регистров размером 16×16 с 32-битной точностью. Одна outer-product операция потребляет два 512-битных AVX-регистра, каждый из которых содержит матрицу 16×4 с 8-битными данными. На каждом пересечении 16×16 сетки аппаратура вычисляет внутреннее произведение между векторами 1×4 и 4×1, создавая 256 новых произведений одновременно и накапливая их в Tile-регистре. В сумме это дает 1024 умножения за такт — для сравнения, стандартный AVX без оптимизаций выполняет лишь 64 умножения за такт, обрабатывая 512-битные векторы как строки из 64 элементов.

ACE тесно интегрирован с AVX10, используя те же регистры и не заменяя, а дополняя существующие векторные инструкции. Процессоры с поддержкой ACE v1 должны также поддерживать определенный набор инструкций AVX10.2. Спецификация описывает 11 форматов данных, включая INT8, INT32, FP32, FP16, BF16, FP8 (по стандарту OCP OFP8), а также масштабируемые форматы OCP MX: MX FP8, MX FP6, MX FP4 и MX INT8. Впервые в коммерческих процессорных архитектурах реализована поддержка типов данных из стандарта OCP MX с встроенным блочным масштабированием.

Разработчики уже ведут работу по добавлению поддержки ACE в ключевые библиотеки, включая NumPy и SciPy, а также в AI-фреймворки PyTorch и TensorFlow.

Выводы

ACE — это важнейший стратегический шаг AMD и Intel по стандартизации ИИ-вычислений на x86-процессорах. В отличие от фрагментированного внедрения AVX-512, где разные производители реализовывали поддержку по-своему, ACE разработан совместно и будет поддерживаться обеими компаниями в будущих поколениях процессоров. Хотя процессоры с поддержкой ACE еще не анонсированы, а появление технологии ожидается не ранее 2027 года, сам факт публикации финальной спецификации знаменует переход x86-платформы от разрозненных решений к унифицированной экосистеме ИИ-ускорения, способной конкурировать с ARM-решениями, уже имеющими аналогичные матричные расширения.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)