Анонс Blackwell: прорыв в области ИИ, анонс GB200 и RTX5090

09.10.2024

~ 15 мин

4914

Простой

Статьи

Содержание:

Анонс архитектуры Blackwell
Зачем нужны решения на базе Blackwell?
GPU Nvidia B200
CPU Nvidia Grace
Superchip Nvidia GB200
Комплекс Nvidia GB200 NVL72
Серверы Blackwell
Особенности архитектуры Blackwell

Transformer Engine 2-ого поколения
NVLink 5.0
Decompression Engine

Игровые NVIDIA GeForce RTX 5-ого поколения
Заключение

Nvidia Blackwell — это самая актуальная микроархитектура графических чипов, которая наглядно показала, что компания Nvidia намерена делать акцент на производстве решений для сектора ИИ, а не на игровых решених для потребительского рынка, как было раньше. Nvidia Blackwell станет доступна в 4-ом квартале 2024 года, и несмотря на разочарование геймеров по всему миру, новинка станет прорывной для рынка изучения искусственного интеллекта, поскольку мощности новых GPU будет хватать для самых передовых языковых моделей. В этой статье мы расскажем о всех особенностях Nvidia Blackwell, поддерживаемых технологиях, а также о решениях на базе этой архитектуры.

Анонс архитектуры Blackwell

Nvidia анонсировала архитектуру Blackwell на конференции GTC в марте 2024 года. Этот анонс стал фурором в мире технологий, поскольку Nvidia, по сути, установила совершенно новый стандарт для высокопроизводительных вычислений и ИИ. Blackwell стала заменой прошлой архитектуре для HPC GPU Hopper, которая вышла еще в 2022 году, и с первых дней завоевала внимание как рядовых потребителей, так и коммерческого сегмента рынка и даже ученых.

На конференции глава компании Nvidia Дженсен Хуанг отметил, что новая архитектура призвана решать как текущие, так и будущие задачи в области обучения искусственного интеллекта, запуска новых, передовых языковых моделей, научных вычислений, а также задач серверного сегмента рынка. Но несмотря на то, что Nvidia делает фокус на решения для ИИ, компания не забросит потребительский сектор и выпустит полную линейку продуктов, в числе которых будут новые игровые видеокарты RTX 5-ого поколения.

Nvidia GB200, Superchip Nvidia GB200, GB200 NVL72

Слайд Nvidia с ключевыми продуктами архитектуры Blackwell для серверного рынка. Источник Nvidia.

Зачем нужны решения на базе Blackwell?

Главным направлением, на которое нацелена архитектура Blackwell, является увеличение эффективности в области машинного обучения и искусственного интеллекта. В последние годы обучение ИИ-моделей становится все более требовательным с точки зрения вычислительных ресурсов, что требует от аппаратных решений увеличения производительности и оптимизации для работы с огромными наборами данных. Ввиду этого растут и доходы компаний, которые производят технологичные решения для рынка обучения моделей ИИ, причем, прибыль значительно превосходит доходы от других сегментов рынка, например, потребительских чипов и видеокарт. Именно поэтому Nvidia решила выпустить устройства на базе новой архитектуры Blackwell, которая призвана ускорить процесс обучения передовых моделей нейросетей и повысить эффективность инференса.

Информация о производительности DGX систем на базе новых чипов B200 по сравнению с H100. Blackwell демонстрирует кратный рост производительности в задачах инференса и обучения ИИ. Источник Nvidia.

GPU Nvidia B200

GPU Nvidia B200 на основе новой микроархитектуры Blackwell представляют собой систему из 2-х кристаллов на особом 4-нм техпроцесс TSMC 4NP. Эти чипы стали первыми GPU от Nvidia, которые имеют чиплетную компоновку. Два кристалла соединены шиной NV-HBI со скоростью передачи данных до 10 ТБ/с и они функционируют как один GPU. Число транзисторов этих GPU достигает 208 миллиардов. По бокам кристаллов расположены 8 стеков памяти формата HBM3E с суммарным объемом в 192 ГБ с пропускной способностью до 8 ТБ/с. В форматах вычислений FP4 и FP8 Nvidia B200 разгоняет производительность до 20 и 10 PFlops соответственно.

Источник Nvidia.

CPU Nvidia Grace

Чипы Nvidia Grace на основе микроархитектуры ARM — это CPU, разработанные специально для интеграции с GPU Nvidia B200. Особенность этих чипов на базе 72-х ядер Neoverse V2 заключается в наличии межсоединении NVLink 5.0 с новыми GPU, благодаря чему увеличивается производительность последовательной обработки данных. За счет этой интеграции, а также наличия шины ISA, Nvidia Grace в решениях на базе архитектуры Blackwell будут демонстрировать лучшие показатели производительности при работе с ИИ, чем процессоры от Intel или AMD.

Процессор Nvidia Grace в паре с графическим процессором H200 образует GH200 Grace Hopper Superchip. Источник Nvidia.

Superchip Nvidia GB200

Суперчипы GB200 — это старшее устройство архитектуры Blackwell. По сути, это ускоритель работы с ИИ, размер которого достигает половины ширины серверной стойки, совмещает в себе два GPU Nvidia B200 и один CPU Nvidia Grace. Этот суперчип имеет огромный TDP до 2,7 кВт и производительность в формате вычислений FP4 до 40 PFlops. Помимо этого, эти устройства в 25 раз более энергоэффективны, в 30 раз более производительны, и в 4 раза более быстры при обучении крупных моделей нейросетей, чем предыдущие ускорители ИИ от Nvidia — чипы HGX H100. Эти чипы являются основой для развертывания комплекса Nvidia GB200 NVL72, о котором мы поговорим ниже.

Суперчипы GB200 включают в себя сразу два ускорителя B200 и ARM процессор Grace. Источник Nvidia.

Комплекс Nvidia GB200 NVL72

Самое передовое устройство архитектуры Blackwell — NVIDIA GB200 NVL72. Если говорить простым языком, это устройство является серверной стойкой, способной объединить в себе 36 суперчипов Nvidia GB200 (72 Nvidia B200 и 36 Nvidia Grace) и несколько коммутаторов NVSwitch 7.2T. Вся эта система в полной комплектации имеет 13,5 ТБ памяти HBM3E со скоростью передачи данных до 576 ТБ/с и объемом оперативной памяти до 30 ТБ. Весь “шкаф” функционирует как один огромный графический процессор с производительностью вычислений искусственного интеллекта в 1,4 EFlops (FP4) и 720 PFlops (FP8). Этот комплекс суперчипов станет главным составным элементов передового суперкомпьютера Nvidia DGX SuperPOD. Такая стойка еще не поступила на рынок, но по предварительным прогнозам, в самой простой комплектации ее стоимость составит около 3 миллионов долларов.

Внешний вид вычислительного комплекса Nvidia GB200 NVL72. Источник Nvidia.

Серверы Blackwell

В довесок ко всему вышеперечисленному, Nvidia также выпустит кастомные серверные системы на основе архитектуры Blackwell. Среди них будут такие модульные системы для серверов, как HGX B100, HGX B200 и DGX B200. Все устройства линейки могут вмещать до 8-ми новых GPU Blackwell с межсоединением NVLink 5. Новинки сопровождаются следующими характеристиками:

HGX B100. Производительность до 112 PFlops для формата вычислений FP4 и и 56 PFlops для форматов FP8/FP6/INT8, не имеет встроенного CPU, TDP при конфигурации с одной видеокартой — 700 Вт;
HGX B200. Производительность до 144 PFlops для операций FP4 и 72 PFlops для операций FP8/FP6/INT8, не имеет встроенного CPU, TDP при конфигурации с одной видеокартой — 1000 Вт; Производительность этой системы лишь 20% выше, чем у HGX B100;
DGX B200. Производительность до 144 PFlops для операций FP4 и 72 PFlops для операций FP8/FP6/INT8, есть встроенный CPU Intel Xeon Emerald Rapids. TTDP при конфигурации с одной видеокартой — 1000 Вт.

Кастомные устройства HGX B100 и HGX B200 предназначены для интеграции в серверные системы других производителей, таких как HP, Supermicro и Dell. Эти производители впоследствии будут интегрировать модули HGX с различными процессорами. По сути, можно сказать, что Nvidia продает "основу" для создания высокопроизводительного GPU-сервера, а сторонние производители упаковывают её в свои шасси.

HGX B200 предназначенный для продажи серверным вендорам. Источник Nvidia.

Модуль DGX B200, в свою очередь, является полноценной серверной платформой для работы с ИИ от Nvidia. Этот сервер можно смело назвать эталоном для других производителей, так как он гарантирует максимальную производительность в задачах, связанных с ИИ. Наличие процессоров от Intel в модуле DGX B200 выглядит парадоксально, поскольку Nvidia активно продвигает собственные процессоры, такие как Nvidia Grace.

DGX B200 занимает 10U в серверной стойке и потребляет до 14.3кВТ в пике. Источник Nvidia.

Особенности архитектуры Blackwell

В свою очередь, высокая эффективность Blackwell при работе с ИИ обеспечивается множеством технологичных решений, которыми буквально напичкана новая архитектура. Давайте рассмотрим технологические особенности решений на архитектуре Nvidia Blackwell.

Transformer Engine 2-ого поколения

Одним из основных нововведений архитектуры Blackwell является 2-ое поколение Transformer Engine — специализированного вычислительного блока, предназначенного для ускорения работы с нейросетями с архитектурой “трансформер”. 2-ое Transformer Engine использует технологию новых тензорных ядер и поддерживает работу с новыми форматами, такими как FP4, FP8 и FP16. Эти форматы позволяют значительно снизить вычислительные затраты и повысить производительность при работе с ИИ, одновременно поддерживая высокую точность вычислений. Transformer Engine автоматически адаптирует формат вычислений для каждой конкретной задачи, что обеспечивает отличный баланс между скоростью выполнения задач и точностью вычислений. Кроме того, движок поддерживает и другие форматы вычислений, такие как INT8, BF16, TF32 и FP64. Также стоит отметить, что 2-ое поколение Transformer Engine оптимизировано для работы с масштабными языковыми моделями типа “трансформер”, насчитывающими миллиарды параметров. Это особенно важно в эпоху, когда такие модели, как GPT-4 omni и Dall-E 3, требуют огромных вычислительных мощностей для эффективного выполнения задач, вроде генерации текста, обработки речи, машинного перевода, обработки изображений, аудио и видео.

NVLink 5.0

Nvidia Blackwell поддерживает интерфейс NVLink 5.0 — пятое поколение технологии межпроцессорных соединений, которая значительно увеличивает пропускную способность передачи данных между графическими процессорами. Благодаря интерфейсу NVLink несколько GPU могут работать вместе в одном кластере до 576 GPU с минимальными потерями производительности при передаче данных. NVLink 5.0 поддерживает скорость передачи данных до 1.8 ТБ/с в обоих направлениях, что в разы превышает пропускную способность предыдущих версий интерфейса и шины PCI-E. Технология NVLink очень полезна при создании больших систем с несколькими GPU, таких как специальные серверные системы для обучения ИИ или крупные суперкомпьютеры. В таких системах GPU обмениваются данными друг с другом, а высокая скорость передачи данных позволяет минимизировать задержки и увеличивать общую производительность системы. NVLink 5.0 также интегрируется с актуальной версией PCIe Gen 6, что делает архитектуру Blackwell более масштабируемой.

Decompression Engine

Еще одна интересная новинка архитектуры Blackwell — распаковочный Decompression Engine, предназначенный для обработки сжатых данных в реальном времени. Decompression Engine обеспечивает распаковку данных со скоростью до 900 ГБ/с непосредственно на уровне GPU. Это значит, что данные могут быть сжаты для уменьшения объема при передаче или хранении, а затем быстро и эффективно разархивированы в процессе работы, что значительно ускоряет вычислительные задачи. Кроме того, распаковочный движок поддерживает новейшие форматы сжатия данных, вроде LZ4, Snappy и Deflate. Все это будет полезно во всех сферах, связанных с обработкой больших объемов данных, например, глубокое обучение ИИ, научные исследования, обработка изображений, моделирование, рендеринг и даже медицинская визуализация.

Игровые NVIDIA GeForce RTX 5-ого поколения

Источник techpowerup.com

Несмотря на то, что основное внимание в устройствах микроархитектуры Blackwell уделено вычислениям в области машинного обучения и ИИ, Nvidia также анонсировала серию игровых видеокарт GeForce RTX 5090 и RTX 5080, которые будут показаны на конференции CES 2025. По сути, в этой линейке игровых видеокарт, Nvidia четко дала понять всем пользователям, что компания будет делать упор на производство решений сектора ИИ, а не потребительского сегмента, поскольку значимое увеличение производительности будет только у флагманской видеокарты RTX 5090 — производительность поднимется на 50%. Остальные решения линейки будут иметь производительность на уровне 4-ого поколения RTX. Недавно в сети произошел слив характеристик моделей RTX 5000, который предоставил авторитетный инсайдер. Вот как выглядят предполодительные характеристики видеокарт RTX 5000:

Параметры	NVIDIA GeForce RTX 5090	NVIDIA GeForce RTX 5080	NVIDIA GeForce RTX 5070	NVIDIA GeForce RTX 5060	NVIDIA GeForce RTX 5050
GPU	Blackwell GB202	Blackwell GB203	Blackwell GB205	Blackwell GB206	Blackwell GB207
Ядра GPU	21 760 CUDA	10 752 CUDA	6400 CUDA	4608 CUDA	2560 CUDA
Объем памяти	32 ГБ GDDR7	16 ГБ GDDR7	12 ГБ GDDR7	8 ГБ GDDR7	8 ГБ GDDR6
Шина памяти	512-бит	256-бит	192-бит	128-бит	128-бит
TDP	600 Вт	400 Вт	250 Вт	170 Вт	100 Вт

Заключение

Архитектура Nvidia Blackwell — это значительный шаг вперед не только для развития сферы искусственного интеллекта, но и для самой компании Nvidia. Решение отойти от сегмента потребительского рынка в область высоких технологий и обучения нейросетей может быть негативно воспринято сообществом фанатов компании, однако, сектор ИИ приносит гораздо большие доходы, поэтому вполне возможно, что в будущем Nvidia сможет представить устройства, которые будут угождать как геймерам, так и разработчикам искусственного интеллекта.

Автор:

Serverflow