Конференция Hot Chips 2025 уже в самом разгаре, и пока мы ждем анонсов передовых новинок для ИИ-ориентированных дата-центров, компания Nvidia решила рассказать, как устроены их флагманские вычислительные системы на базе ускорителей GB200/300.
Подробнее о MGX GB200/GB300
Выступление компании Nvidia, представителем которой стал инженер-механик Джон Нортон, началось с описание модульной архитектуры вычислительных систем MGX, которые были представлены в 2024 году на саммите OCP. Сама архитектура MGX была создана для решения задач глобального масштабирования количества ИИ-ускорителей, предоставляя пользователям возможность сборки индивидуальной конфигурации под собственные нужды. Джон Нортон подчеркнул, что некоторые заказчики систем HGX и DGX предпочитали специфические решения Smart NIC, а другим требовались уникальные комбинации CPU и GPU. Проблема заключалась в том, что даже небольшое изменение в системе могло повлечь за собой каскад корректировок во всей архитектуре вычислительных систем Nvidia.
Чтобы пользователи получили отказоустойчивые, эффективные решения с сохранением возможности глубокой кастомизации, Nvidia представила архитектуру MGX, в основе которой применялись особые модули, которые могли взаимодействовать друг с другом независимо от используемых в них компонентов. Также был создан единый набор спецификаций и интерфейсов, что позволило компании инвестировать в унифицированную инфраструктуру, а затем менять отдельные модули по мере необходимости. Благодаря открытости спецификаций в рамках OCP, клиенты получили возможность адаптировать MGX под свои нужды.
Nvidia представляет модульную архитектуру MGX на саммите OCP 2024. Источник: OCP.
Далее Джон Нортон сосредоточился на двух ключевых аспектах архитектуры: стоечной инфраструктуре MGX и вычислительно-коммутационных блоках. Именно эти элементы используются для построения системы GB200 Blackwell. Nvidia использует открытые стандарты для проектирования платформы MGX, публикуя все 3D-модели и чертежи в детализированных спецификациях, доступных для скачивания на ресурсах OCP.
Помимо этого Nvidia раскрыли общие характеристики платформ Blackwell GB200/GB300. В верхней части стойки расположены сетевые коммутаторы, а блоки питания расположены прямо под ними, ниже интегрируются вычислительные модули. Система GB200 содержит 300 чипов в десяти вычислительных модулях, девять коммутационных модулей и еще восемь вычислительных модулей.
Компоновка вычислительной стойки GB200/300 с шиной NVLINK и блоками питания. Источник: Nvidia.
Каждый вычислительный модуль способен выполнять 80 операций FP4 в секунду, а вся система в сочетании с коммутаторами достигает производительности 1,4 EFLOPS. Общее энергопотребление составляет около 120 кВт, причем каждый вычислительный модуль потребляет примерно 7 кВт. Все компоненты соединены друг с другом с помощью шины NVLink, пропускная способность которой достигает 200 Гбит/с на линию с низкой задержкой.
Схема серверной стойки на базе ускорителей GB200/300 с указанием размеров. Источник: Nvidia.
Одной из инженерных проблем стало соответствие стандартам: в то время как спецификация OCP требует расстояния 48 мм между устройствами в стойке, традиционное корпоративное оборудование использует расстояние 44,5 мм (1RU или 19-дюймовый стандарт EIA). NVIDIA интегрировала стандарты EIA в свою стойку, что позволило увеличить плотность размещения узлов.
Схема NVLINK Spine и системы жидкостного охлаждения. Источник: Nvidia.
Мощность шины также стала вызовом: стандартная шина рассчитана на 35 кВт, в то время как системе Nvidia для корректной работы требовалось в четыре раза больше больше. Компания разработала более глубокую и широкую шину с увеличенным поперечным сечением, способную выдерживать ток до 1400 ампер. Для этого была добавлена рама, увеличивающая глубину стойки со стандартных 1068 мм до 1200 мм.
Отличительные особенности 19-дюймового стандарта EIA. Источник: Nvidia.
Вычислительный модуль NVIDIA GB200/300 NVL состоит из двух центральных процессоров и четырех графических процессоров. Каждый модуль хост-процессора (HPM) поддерживает один CPU Grace и два GPU Blackwell.
Модули организованы в форм-фактор micro-MGX. На передней панели расположена зона охлаждения, конфигурируемая под различные типы вентиляторов и кабелей. Клиенты могут кастомизировать управление, сетевые адаптеры и накопители данных (U.2 или E1.S, DC-SCM). На задней панеле используются универсальные быстроразъемные соединения UQD по стандарту OCP. Вся система использует жидкостную систему охлаждения.
NVIDIA подтвердила, что GB200 и GB300 уже запущены в серийное производство и развернуты в нескольких гипермасштабируемых дата-центрах по всему миру. Компания продолжает ежегодно расширять границы плотности, мощности и охлаждения. Такие технологии, как открытое решение для межсоединений NVLink Fusion, вносят значительный вклад в масштабируемость систем и в будущем будут повсеместно внедряться в вычислительные системы MGX GB200 и GB300.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.