Компания Nvidia представила новую технологию для своей платформы GB300 NVL72, призванную смягчить колебания напряжения, вызванные синхронной работой тысяч GPU в ИИ-системах. Решение снижает пиковую нагрузку на энергосеть до 30%, что критически важно для обеспечения стабильности системы. Аналогичное решение впоследствии будет использоваться в комплексах GB200 NVL72.
Подробнее об особых БП Nvidia
Во время процесса обучения моделей искусственного интеллекта, когда тысячи ИИ-ускорителей синхронно выполняют однотипные вычисления с разными данными, в сети часто происходят скачки напряжения, а излишки энергии расходуется даже в моменты простоя. Во время асинхронных вычислений в традиционных центрах обработки данных, такая проблема почти не наблюдается. Для компенсации скачков напряжения, компания Nvidia совместно с LITEON Technology оснастила ИИ-ускорители GB300 блоками питания с электролитическими конденсаторами (накопителями энергии), а также всем необходимым аппаратно-программным обеспечением.
Система питания стоек Nvidia NVL с интегрированными буферами энергии. Источник: .
Решение использует комбинацию методов: ограничение мощности, накопление энергии и ее контролируемое рассеивание функцией NVIDIA GPU Burn. Конденсаторы, занимающие почти половину объема БП и запасающие 65 Дж на GPU, обеспечивают сглаживание энергопотребления внутри вычислительной стойки. Они функционируют как буфер: накапливают энергию при низкой нагрузке на ускоритель и отдают ее при пиковом потреблении. Сравнительные тесты GB200 и GB300 под одинаковой нагрузкой подтвердили, что GB300 сокращает пиковое сетевое потребление на 30% без ущерба для мощности GPU.
Результаты тестов GB200 и GB300 под одинаковой нагрузкой, где GB300 сокращает энергопотребление на 30% без ущерба для мощности ускорителя. Источник: .
GB300 ограничивает скачки путем плавного, ступенчатого повышения энергопотребления ускорителя при старте операции, согласуя его с возможностями энергосети. По завершении вычислений программный драйвер активирует аппаратное снижение энергопотребления, а функция NVIDIA GPU Burn поддерживает постоянную мощность в ожидании новой задачи. Если нагрузка возобновляется, GPU Burn мгновенно отключается. При длительном простое ускоритель плавно снижает потребление. После окончания нагрузки с помощью NVIDIA GPU Burn происходит контролируемое, планомерное снижение мощности до отключения, темп которого соответствует возможностям сети. Параметры системы, такие как минимальное энергопотребление в режиме ожидания и время плавного снижения нагрузки, настраиваются через NVIDIA SMI или Redfish. Такой детальный контроль энергопотребления снижает нагрузку на электросеть и повышает предсказуемость планирования операций.
Работа особых блоков питания Nvidia на схеме потребления энергии вычислительной стойки. Источник: .
Поскольку сглаживание ограничено стойкой без обратной подачи энергии в сеть, операторы получают расширенный контроль над энергопотреблением. Этот гибридный подход, состоящий из программных и аппаратных компонентов, обеспечивает лучшую масштабируемость и делает дата-центры или ИИ-кластеры на базе GB200/GB300 NVL72 менее ресурсозатратными для энергосети.
Выводы
Важность выпуска этой передовой технологии подтверждают не только внутренние исследования Nvidia, но и мировое научное сообщество. Например, Сантьяго Грихальва, профессор электротехники в Технологическом институте Джорджии, назвал технологию “ серьезным событием”, учитывая влияние компании на ИИ-индустрию. Однако этот же профессор подчеркнул, что использование передовых блоков питания с буфером ограничено лишь флагманскими системами Nvidia и будет активно конкурировать с разработками Tesla и программными оптимизациями Meta*, предлагая значительное, но не революционное улучшение существующих методов управления питанием.
*Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.