Top.Mail.Ru
Microsoft Maia 200: ИИ-ускоритель для масштабного инференса в облаках Azure | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Microsoft Maia 200: ИИ-ускоритель для масштабного инференса в облаках Azure

~ 2 мин
135
Простой
Новости
Microsoft Maia 200: ИИ-ускоритель для масштабного инференса в облаках Azure

Введение

Microsoft официально ввела в эксплуатацию Maia 200 — новейший специализированный ИИ-ускоритель, ориентированный не на обучение, а на экономичный инференс больших языковых моделей. Чипы Maia 200 оптимизированы для достижения минимальной стоимости генерации токенов и являются центральным элементом в ИИ-инфраструктуре Microsoft, предлагая клиентам собственный кремний в качестве альтернативы дорогостоящей аренды GPU-ускорителей Nvidia и мощностей других других гиперскейлеров.

Подробнее о Microsoft Maia 200

NPU-ускоритель Maia 200 изготавливается на 3-нм техпроцессе TSMC и имеет более 140 млрд транзисторов. Архитектура оптимизирована под низкоточные вычисления, критически важные для современных LLM на этапе инференса. Решение поддерживает FP4 и FP8, что реализовано через проприетарные тензорные ядра Microsoft, что позволяет достигать более производительность 10 PFLOPS в FP4 и более 5 PFLOPS в FP8 при тепловом пакете порядка 750 Вт на SoC. По заявлениям Microsoft, по FP4-производительности Maia 200 превосходит Amazon Trainium третьего поколения примерно в три раза, а по FP8 опережает TPU седьмого поколения от Google. При этом, NPU-ускоритель Maia 200 также поддерживает форматы вычислений BF16, FP16 и FP32, однако среди этих режимов Microsoft раскрывает точные показатели производительности только в BF16 — 1,268 PFLOPS.

Ключевым элементом Maia 200 является подсистема памяти. Maia 200 оснащен огромным объемом памяти HBM3e до 216 ГБ с пропускной способностью около 7 ТБ/с, а также массивом встроенной SRAM объемом до 272 МБ. В сочетании со специализированными DMA-механизмами и выделенной NoC-топологией это решает типичное узкое место инференс-нагрузок — перемещение данных между вычислительными блоками и памятью. В результате рост производительности достигается не только за счет чистой производительности, но и за счет увеличения пропускной способности токенов.

Характеристики ИИ-ускорителя Maia 200
Характеристики ИИ-ускорителя Maia 200 в сравнении с AWS Trainium3 и Google TPU v7. Источник: Microsoft Blog.

На системном уровне Maia 200 встроен в двухуровневую масштабируемую сетевую архитектуру на базе стандартного Ethernet, без использования проприетарных интерконнектов. Каждый ускоритель обеспечивает до 2,8 ТБ/с двунаправленной пропускной способности для масштабирования и поддерживает объединение в кластеры до 6144 ускорителей. Внутри одной кластерной ноды расположено до четырех ускорителей, которые соединены напрямую, без дополнительных коммутационных узлов, что снижает задержки и повышает эффективность. Единые протоколы используются как внутри стойки, так и между стойками, что упрощает программную модель и снижает издержки масштабирования.

Вычислительная нода на базе Maia 200
Вычислительная нода на базе четырех ИИ-ускорителей Maia 200. Источник: Microsoft Blog.

С программной точки зрения Maia 200 сразу проектировался как часть облачной инфраструктуры Microsoft. Ускоритель полностью интегрирован с Azure, а также Microsoft уже представила предварительную версию Maia SDK, который включает поддержку PyTorch, компилятор Triton, который позволяет переносить код CUDA и ROCm на стек Microsoft, оптимизированные библиотеки ядер и низкоуровневый язык программирования Maia, что позволяет как быстро переносить существующие модели, так и глубоко оптимизировать критические участки под конкретные нагрузки. Maia 200 уже используется для обслуживания моделей GPT-5.2 в Microsoft Foundry и Microsoft 365 Copilot, а также внутри команды Microsoft Superintelligence для генерации синтетических данных и обучения с подкреплением.

Выводы

Maia 200 — это стратегический шаг Microsoft к снижению зависимости от универсальных GPU и ускорителей сторонних производителей в задачах инференса. Чип делает ставку на низкоточные вычисления, экстремальную пропускную способность памяти и тесную интеграцию с облачной инфраструктурой, а не на полную универсальность и полную совместимость с традиционной ИИ-инфраструктурой. В результате Microsoft получает контролируемый по стоимости и масштабированию инструмент для обслуживания собственных ИИ-сервисов и даже GPT-5.2, а также укрепляет позиции в гонке гиперскейлеров за производительность на доллар.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)