Компания Nvidia представила новую технологию для своей платформы GB300 NVL72, призванную смягчить колебания напряжения, вызванные синхронной работой тысяч GPU в ИИ-системах. Решение снижает пиковую нагрузку на энергосеть до 30%, что критически важно для обеспечения стабильности системы. Аналогичное решение впоследствии будет использоваться в комплексах GB200 NVL72.
Подробнее об особых БП Nvidia
Во время процесса обучения моделей искусственного интеллекта, когда тысячи ИИ-ускорителей синхронно выполняют однотипные вычисления с разными данными, в сети часто происходят скачки напряжения, а излишки энергии расходуется даже в моменты простоя. Во время асинхронных вычислений в традиционных центрах обработки данных, такая проблема почти не наблюдается. Для компенсации скачков напряжения, компания Nvidia совместно с LITEON Technology оснастила ИИ-ускорители GB300 блоками питания с электролитическими конденсаторами (накопителями энергии), а также всем необходимым аппаратно-программным обеспечением.
Система питания стоек Nvidia NVL с интегрированными буферами энергии. Источник: Nvidia.
Решение использует комбинацию методов: ограничение мощности, накопление энергии и ее контролируемое рассеивание функцией NVIDIA GPU Burn. Конденсаторы, занимающие почти половину объема БП и запасающие 65 Дж на GPU, обеспечивают сглаживание энергопотребления внутри вычислительной стойки. Они функционируют как буфер: накапливают энергию при низкой нагрузке на ускоритель и отдают ее при пиковом потреблении. Сравнительные тесты GB200 и GB300 под одинаковой нагрузкой подтвердили, что GB300 сокращает пиковое сетевое потребление на 30% без ущерба для мощности GPU.
Результаты тестов GB200 и GB300 под одинаковой нагрузкой, где GB300 сокращает энергопотребление на 30% без ущерба для мощности ускорителя. Источник: Nvidia.
GB300 ограничивает скачки путем плавного, ступенчатого повышения энергопотребления ускорителя при старте операции, согласуя его с возможностями энергосети. По завершении вычислений программный драйвер активирует аппаратное снижение энергопотребления, а функция NVIDIA GPU Burn поддерживает постоянную мощность в ожидании новой задачи. Если нагрузка возобновляется, GPU Burn мгновенно отключается. При длительном простое ускоритель плавно снижает потребление. После окончания нагрузки с помощью NVIDIA GPU Burn происходит контролируемое, планомерное снижение мощности до отключения, темп которого соответствует возможностям сети. Параметры системы, такие как минимальное энергопотребление в режиме ожидания и время плавного снижения нагрузки, настраиваются через NVIDIA SMI или Redfish. Такой детальный контроль энергопотребления снижает нагрузку на электросеть и повышает предсказуемость планирования операций.
Работа особых блоков питания Nvidia на схеме потребления энергии вычислительной стойки. Источник: Nvidia.
Поскольку сглаживание ограничено стойкой без обратной подачи энергии в сеть, операторы получают расширенный контроль над энергопотреблением. Этот гибридный подход, состоящий из программных и аппаратных компонентов, обеспечивает лучшую масштабируемость и делает дата-центры или ИИ-кластеры на базе GB200/GB300 NVL72 менее ресурсозатратными для энергосети.
Выводы
Важность выпуска этой передовой технологии подтверждают не только внутренние исследования Nvidia, но и мировое научное сообщество. Например, Сантьяго Грихальва, профессор электротехники в Технологическом институте Джорджии, назвал технологию “ серьезным событием”, учитывая влияние компании на ИИ-индустрию. Однако этот же профессор подчеркнул, что использование передовых блоков питания с буфером ограничено лишь флагманскими системами Nvidia и будет активно конкурировать с разработками Tesla и программными оптимизациями Meta*, предлагая значительное, но не революционное улучшение существующих методов управления питанием.
*Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.