NVIDIA Rubin CPX: новый подход к ускорению ИИ-вычислений

10.09.2025

~ 2 мин

710

Простой

Новости

Введение

Компания представила Nvidia Rubin CPX — новый тип графических процессоров следующего поколения, предназначенный для ускорения работы с экстремально большим контекстом и генерации длинных видеороликов. Архитектура Nvidia Rubin CPX значительно отличается от предыдущих решений на базе Blackwell, знаменуя новый эволюционный шаг в области ИИ-вычислений.

Что такое Nvidia Rubin CPX?

Процессоры Nvidia Rubin CPX будут интегрироваться в вычислительные ноды систем NVL144 вместе со стандартными GPU Rubin с памятью HBM и CPU Vera нового поколения. По сути, Nvidia Rubin CPX являются некими сопроцессорами на базе более доступной памяти GDDR7 объемом 128 ГБ, которые будут оптимизировать этап предварительного заполнения (контекстный этап) при инференсе больших языковых моделей, тем самым освобождая вычислительные мощности основного GPU Vera Rubin с высокоскоростной памятью HBM для непосредственного вывода результатов генерации. Напомним, что контекстный этап является узким местом в большинстве гетерогенных вычислительных систем, особенно при выполнении таких задач, как работа с кодом и генерация видео, поскольку вычислительных ресурсов современных GPU не хватает при масштабировании ИИ-нагрузок.

Характеристики Nvidia Rubin CPX

Характеристики графических сопроцессоров Rubin CPX включают производительность на уровне 30 PFLOPS в формате вычислений NVFP4 и пул памяти GDDR7 объемом 128 ГБ. Nvidia также заявляет о трехкратном приросте производительности в операциях с экспонентой по сравнению с платформой GB300. Для оптимизации выполнения видеонагрузок Rubin CPX также оснащен четырьмя блоками кодирования и декодирования NVENC/NVDEC, которые ранее интегрировались только в потребительские GPU, например, GeForce RTX 5090. Стоит отметить, что Nvidia не добавила новых форматов снижения точности, поскольку NVFP4 также поддерживался в архитектуре чипов Blackwell Ultra — это говорит о том, что времена еще большего снижения точности уже прошли, поэтому компания нацелена на оптимизацию текущего режима вычислений для достижения наилучшей производительности. Выход на рынок Rubin CPX запланирован на конец 2026 года.

Оптимизация инференса LLM c с помощью Rubin CPX

Оптимизация инференса LLM за счет согласования возможностей графического процессора с контекстом и рабочими нагрузками. Источник: Nvidia.

Vera Rubin NVL144 CPX

Чипы Rubin CPX будут интегрироваться в гетерогенные серверные стойки нового поколения под названием Vera Rubin NVL144. Один вычислительный модуль Vera Rubin NVL144 CPX будет включать четыре основных GPU Rubin, два центральных процессора Vera на архитектуре Arm и восемь модулей Rubin CPX. Завершает картину восемь модулей сетевых адаптеров NVIDIA ConnectX-9 с пропускной способностью 1,6 Тбит/с каждый (для сравнения: у ConnectX-7 — 400 Гбит/с, а у ConnectX-8 — 800 Гбит/с). Это обеспечивает агрегированный сетевой трафик в 12,8 Тбит/с с одного модуля, что сопоставимо с целым коммутатором Broadcom Tomahawk 3. Таким образом, в одной стойке можно разместить 144 основных блока Rubin и 144 блока Rubin CPX, а вся стойка будет обеспечивать непревзойденную производительность в 8 EFLOPS, пропускную способность в 1,7 Пбайт/с и общий объем памяти HBM4E в 100 ТБ, в то время как стойка GB300 NVL72 обеспечивает лишь 1,4 TFLOPS и 40 ТБ памяти. Nvidia также анонсировала и другие конфигурации NVL144, например, без интегрированных чипов Rubin CPX и стойку с боковым подключением.

Архитектура вычислительной ноды Vera Rubin с интеграцией сопроцессоров Rubin CPX в стойках NVL144. Источник: Nvidia.

Стоит отметить, что помимо стандартных чипов Rubin, в 2027 году Nvidia также выпустит графические процессоры Rubin Ultra, на базе памяти HBM4E которые войдут в состав передовой вычислительной стойки NVL576. Эти системы также будут иметь сопроцессоры Rubin CPX, увеличенную плотности GPU на модуль, новейшие сетевые адаптеры ConnectX-9 и другие передовые новинки.

Roadmap компании Nvidia на 2025-2028 годы. Источник: Nvidia.

Выводы

Идея использовать графические сопроцессоры для оптимизации работы с контекстом и генерацией видео выйдет крайне перспективно, а архитектура Rubin CPX сама по себе выделяется на фоне других решений компании за счет интеграции блоков кодирования/декодирования и использования памяти GDDR7. Кроме того, этот анонс, по сути, подтолкнет индустрию к созданию аналогичных решений, оптимизирующих инференс LLM без упора на мощность универсальных GPU. На рынке уже существует множество компаний с подобной продукцией, например, нишевые RDU-чипы от компании SambaNova, но выход Rubin CPX вполне может стать инициатором нового тренда в мире ИИ-вычислений.

Автор:

Serverflow