HBM память — лидер скоростных показателей

09.07.2024

~ 17 мин

10548

Простой

Статьи

Введение

Когда сегодня говорят про обучение больших языковых моделей, первая картинка, которая всплывает в голове — это красивые, блестящие кристаллы GPU-чипов Nvidia, стильные ИИ-ускорители, здоровенные вычислительные ноды и, конечно же, гигантские кластеры ИИ-фабрик с сумасшедшими цифрами TFLOPS. Все помешаны на чистой ИИ-производительности железа, и хотят получить от производителей GPU как можно больше нулей напротив блоков FP16, FP8 или FP4 в таблице характеристик. Но знаете ли вы, что производительность GPU — это лишь половина успеха в обучении, и главное узкое место лежит не в плоскости арифметики ИИ-чипов, а в емкости и пропускной способности памяти HBM. Именно этот передовой тип высокоскоростной памяти отвечает за то, чтобы Nvidia Rubin или AMD Instinct MI400 не простаивали в ожидании данных, как голодные повара с острыми ножами, но без продуктов. Но несмотря на всю значимость HBM, многие до сих пор не понимают, что в этой памяти такого особенного и почему вокруг нее сейчас такой ажиотаж. В этой статье специалисты компании ServerFlow расскажут вам, что из себя представляет память HBM, как она работает, какие поколения HBM существуют и почему она так важна для обучения ИИ.

Что такое HBM и как она работает?

Для начала, как всегда, стоит добавить чуточку сухой теории. HBM (High Bandwidth Memory) — это разновидность графической памяти, которая заточена на достижение экстремально высокой пропускной способности и плотности хранения данных, что обуславливается уникальной компоновкой DRAM-кристаллов и способом их объединения. Если обычные GDDR-микросхемы, используемые в потребительских видюхах, по одной штуке распаиваются на печатной плате вокруг GPU, то в HBM кристаллы памяти ставят прямо друг на друга в многослойную стопку, используя 3D-компоновку. Каждый слой HBM — это отдельный чип памяти, и все слои соединяются в единое целое с помощью проводников, проходящих через все кристаллы насквозь. Такой способ соединения называется TSV (Through-Silicon Vias). Вся эта стопка, вместе с базовым логическим кристаллом-контроллером в основании, припаивается не отдельно на текстолит ускорителя, а на одну подложку с GPU, чтобы ИИ-чип мог иметь прямой доступ к своему банку памяти.

Схема расположения HBM-памяти на одной подложке с вычислительным чипом. Источник: Medium.

Благодаря такой компоновке и установке на процессорной подложке, шина HBM-памяти намного шире, чем у GDDR-памяти — всего 32 бита у чипа GDDR7 и аж 1024 бит у стэка HBM3E. Из-за столь широкого интерфейса частота работы самой памяти HBM намного скромнее памяти GDDR — всего 1-3 ГГц, но итоговая пропускная способность может улетать за несколько терабайт в секунду. А поскольку контакты микро-бампов подложки очень короткие, паразитные емкости минимальны, что заодно резко снижает энергопотребление на каждый переданный бит.

Чипы HBM3 расположены на одной подложке с графическим чипом GH100 в ИИ-ускорителей Nvidia H100.

Поколения памяти HBM

Эволюция технологии шла быстро, подгоняемая сначала HPC-задачами, а затем и бумом искусственного интеллекта. Каждый шаг приносил радикальный рост емкости и пропускной способности, одновременно усложняя производство. Ниже — все коммерческие поколения, от первопроходца до актуального флагмана.

HBM (HBM1)

Первое поколение дебютировало в 2015 году на потребительском рынке в видеокартах AMD Radeon R9 Fury X и Radeon Pro Duo, так как именно компания AMD была инициатором разработки высокоскоростного типа графической памяти. По сути, это была демонстрация концепции, доказавшая, что 3D-стопки DRAM могут работать в конечных устройствах. Техпроцесс TSV и ограниченная плотность позволяли нарастить только до четырех слоев в стеке, поэтому объем был откровенно мал для профессиональных задач. Но архитектура шины на 1024 бита при скорости 128 ГБ/с уже тогда дала выдающуюся пропускную способность по сравнению с GDDR5. HBM1 заложила основу для всех последующих итераций, хотя сама продержалась в продуктах недолго.

Максимальный объем на стек: 4 ГБ.
Пропускная способность на стек: 128 ГБ/с.
Ширина шины: 1024 бита.
Применение: AMD Radeon R9 Fury X, Radeon Pro Duo (Fiji).

Видеокарта AMD Radeon R9 Nano с 4 интегрированными чипами HBM1. Источник: Wiki.

HBM2

Год выпуска: 2016 (первые продукты). Утвержденный JEDEC стандарт вышел в 2016 году, и в том же году NVIDIA показала Tesla P100, а затем, в 2017-м, — V100. Именно HBM2 превратила технологию в рабочий стандарт для HPC и обучения нейросетей. Здесь серьезно выросла скорость — до 256 ГБ/с, а количество слоев в стеке расширилось до восьми, что удвоило емкость и пропускную способность. Появилась поддержка ECC и более гибкое управление банками. HBM2 стала золотой серединой, продержавшись в суперкомпьютерах и ускорителях несколько лет, и доказала, что энергоэффективность на петабайт данных у HBM в разы лучше, чем у конкурирующей GDDR5X.

Максимальный объем на стек: 24 ГБ.
Пропускная способность на стек: до 256 ГБ/с.
Ширина шины: 1024 бита.
Применение: NVIDIA Tesla P100 (16 ГБ, 4 стека), Tesla V100 (32 ГБ, 4 стека HBM2), AMD MI50 (32 ГБ ), процессор Fujitsu A64FX для Fugaku.

Чип GV100 от ИИ-ускоритель Tesla V100 с 4 стеками памяти HBM2.

HBM2E

Формально не отдельный стандарт JEDEC, а расширенная версия HBM2 2019 года выпуска с увеличенной скоростью и плотностью. Удвоение числа слоев до двенадцати позволило выпускать стеки по 16 ГБ, а скорость подняли до 460 ГБ/с. Это поколение стало критически важным переходом к современному ИИ-буму: 80-гигабайтная версия NVIDIA A100 с пятью стеками HBM2E впервые позволила тренировать модели масштаба GPT-2/3 на одном ускорителе без разбиения. HBM2E также использовалась в процессорах Intel Xeon Max как встроенная высокоскоростная память, доказывая универсальность подхода.

Максимальный объем на стек: 24 ГБ.
Пропускная способность на стек: до 460 ГБ/с.
Ширина шины: 1024 бита.
Применение: NVIDIA A100 (80 ГБ, 5 стеков по 16 ГБ), Intel Xeon Max (64 ГБ HBM2E).

Графический процессор GA100 от ИИ-ускорителя Nvidia A100 с 6 стеками памяти HBM2E. Источник: Mobile-review.

HBM3

Первый стандарт, полностью разработанный с учетом требований ИИ-ускорителей и утвержденный JEDEC в начале 2022 года. HBM3 ознаменовала переход к скорости 819 ГБ/с. Это радикально повысило параллелизм запросов и снизило задержки при произвольном доступе. Объем стека вырос до 24 ГБ, а для дата-центров стала обязательной сквозная коррекция ошибок и тонкое управление питанием на уровне банков. Внедрение началось в том же году с ускорителями NVIDIA H100 и продолжалось в чипах AMD Instinct MI300X.

Максимальный объем на стек: 24 ГБ.
Пропускная способность на стек: до 819 ГБ/с.
Ширина шины: 1024 бита.
Применение: NVIDIA H100 (80 ГБ HBM3, 5 стеков), AMD Instinct MI300X, Google TPU v4.

GPU GH100 от ИИ-ускорителя Nvidia H100 с 6 стеками памяти HBM3.

HBM3E

Актуальный флагман, расширяющий спецификацию HBM3 за пределы первоначального стандарта. SK Hynix начала массовые поставки в начале 2024 года для NVIDIA H200, и практически сразу HBM3E стала стандартом для новейших ускорителей Blackwell. Скорость перешагнула за 1 ТБ/с. Параллельно стали доступны стеки емкостью 24, 36 и 48 ГБ. HBM3E закрывает потребности текущего поколения LLM с сотнями миллиардов параметров, позволяя собирать ускорители с 192 ГБ памяти и пропускной способностью под 8 ТБ/с на чипе, такие как B200. Именно HBM3E определяет ритм всей ИИ-гонки.

Максимальный объем на стек: 48 ГБ.
Пропускная способность на стек: свыше 1,0 ТБ/с, до 1,2 ТБ/с.
Ширина шины: 1024 бита.
Применение: NVIDIA H200 (141 ГБ, 6 стеков, 4,8 ТБ/с), NVIDIA B200 (192 ГБ, 8 стеков, до 8 ТБ/с), Nvidia B300 (288 ГБ, 8 стеков, до 8 ТБ/с) AMD MI350, Intel Gaudi 3.

Графический чип Nvidia B300 с 8 стэками HBM3E. Источник: Heise.

HBM4

Стандарт был утвержден JEDEC в апреле 2025 года, а уже к концу 2025-го SK Hynix завершила разработку и начала массовое производство, за ней подтянулись Samsung и Micron в начале 2026 года. Ключевое изменение — ширина шины увеличена вдвое, с 1024 до 2048 бит на стек, что и дает главный прирост пропускной способности. Кроме того, в HBM4 базовый логический кристалл (Base Die) впервые производится не по техпроцессу памяти, а по передовым логическим техпроцессам — 4–5 нм на фабриках TSMC, что открывает возможности для глубокой кастомизации под конкретного заказчика.

Максимальный объем на стек: 64 ГБ.
Пропускная способность на стек: от 2,8 ТБ/с (Micron) до 3,3 ТБ/с (Samsung).
Ширина шины: 2048 бита.
Применение: NVIDIA Vera Rubin (до 288 ГБ, 8 стеков по 36 ГБ, пропускная способность до 22 ТБ/с на GPU).

Дженсен Хуанг демонстрирует передовые процессоры Rubin и Vera. Слева — Nvidia Rubin с 8 стекам HBM4. Источник: YouTube.

HBM4E

HBM4E — это форсированное расширение HBM4, которое Samsung впервые показала на GTC 2026. Новый чип ориентирован на следующее поколение ускорителей — NVIDIA Rubin Ultra — и доводит частоты и емкость до величин, которые еще пару лет назад казались фантастикой.

Максимальный объем на стек: 64 ГБ.
Пропускная способность на стек: 4,0 ТБ/с.
Применение: NVIDIA Rubin Ultra (ожидается до 384 ГБ на GPU при использовании 16‑слойных стеков и до 64 ТБ/с совокупной пропускной способности).

Почему HBM — лучшая память для обучения ИИ

Обучение больших моделей — это, по сути, бесконечный поток матричных умножений над гигантскими тензорами весов. Главная боль здесь — доставка этих весов и промежуточных активаций к исполнительным блокам. Вычислить-то можно быстро, если данные уже в регистрах или в SRAM-кеше, но модель не влезает. Чем больше модель, тем чаще приходится ходить в основную память. А так как процесс обучения идет пакетами, надо обеспечивать огромный throughput при чтении. HBM решает сразу три ключевые задачи:

Первая — колоссальная пропускная способность. Когда у вас 4-8 ТБ/с, то время простоя тензорных ядер становится сводится к минимуму.
Вторая — объем. Даже для древней модели Llama* 2 70B с весами в режиме FP16 нужно минимум 140 ГБ только под параметры, плюс активации и градиенты. Восемь стеков HBM3E обеспечивают плотность памяти до 192 ГБ всего на одном чипе, позволяя масштабировать объем до ИИ-кластеров без критических провалов по пропускной способности при межсоединениях.
Третья — энергоэффективность. Каждый джоуль, сэкономленный на передаче данных от памяти к вычислительному ядру, — это дополнительный джоуль, который можно потратить на вычисления. HBM передает бит данных в несколько раз экономичнее, чем GDDR, благодаря коротким линиям и низкой частоте на контактах.

Именно поэтому NVIDIA, AMD, Intel, Google и другие интеграторы ИИ-чипов пришли к HBM как безальтернативному варианту для тренировки ИИ. Однако в 2026 году этот ландшафт начал неожиданно меняться, о чем мы расскажем немного ниже.

Графический процессор Polaris 10 от видеокарты Radeon RX 480. Как видно на фото, банки памяти GDDR5 распаяна вокруг GPU, а не на одной подложке с ним.

Ключевые поставщики HBM-памяти

На рынке HBM-памяти сформировалась железобетонная олигополия. Три гиганта — SK Hynix, Samsung и Micron — владеют технологией монолитных 3D-стеков DRAM и используют ее для выпуска передовых чипов HBM. Но расстановка сил динамическая: сейчас все трое вступили в гонку HBM4, параллельно форсируя разработку HBM4E, и у каждого накопился свой набор козырей и проблем. Главный судья в этом соревновании — NVIDIA, чьи требования к скорости и качеству определяют, чьи чипы окажутся в ускорителях Vera Rubin.

SK Hynix — безоговорочный лидер и главный бенефициар бума ИИ. Компания первой начала массовое производство HBM4: еще в сентябре 2025 года она завершила разработку первого чипа и вышла на серийный выпуск. Ее первая в мире 16-слойная HBM4 емкостью до 48 ГБ работает на скоростях более 2,9 ТБ/с — с запасом выше стандарта JEDEC. Ключевое архитектурное преимущество — удвоенная до 2048 бит шина, что дает радикальный прирост пропускной способности даже при равной частоте. Именно SK Hynix выпускает 70% HBM-чипов для Nvidia, а также поставляет память для AMD.
Micron — отгружает Хуангу 16-слойные HBM4 емкостью до 48 ГБ и упором на повышенную энергоэффективность. После грандиозного возвращения Samsung в гонку HBM, доля отгрузок американской компании упала до 18%, но это не мешает Micron быть и оставаться одним из крупнейших производителей HBM-памяти в мире, а также налаживать поставки конкурентам Nvidia, в частности, AMD.
Samsung — долгое время занимала позицию отстающего, но смогла удовлетворить стандарты Хуанга и начала коммерческие поставки 16-слойной HBM4 емкостью 48 ГБ в феврале 2026 года. Компания заявляет, что ее HBM-чипы работают на скоростях 3,3 ТБ/с, что примерно на 46% выше отраслевого стандарта в 8 Гбит/с, с возможностью разгона до 13 Гбит/с. Пока что объемы выпуска невелики, но компания уже воздвигает заводы для утроения производства чипов, и даже активно ведет разработку HBM4E — скорость до 4 ТБ/с на стек.

Преимущества и недостатки HBM

Давайте соберем все в кучу и выделим все ключевые преимущества памяти HBM:

Пропускная способность на ватт — главное преимущество в условиях, когда ЦОДы упираются в лимиты мощности на стойку;
Близость к ядру — минимальные задержки на физическом уровне и малое количество буферных каскадов;
Компактность — освобождается место на подложке, которое можно занять дополнительными вычислительными кластерами или стэками HBM;
Масштабируемость — эволюция позволяет на том же числе контактов интерпозера последовательно удваивать пропускную способность и объем.

Но там, где есть преимущества, всегда найдутся и недостатки, которые вносят определенный вклад в особенности интеграции и использования HBM:

Заоблачная стоимость — производство стеков с TSV, тестирование на пластине, сборка на интерпозер, высочайшие требования к термомеханической совместимости материалов — все это делает HBM в разы дороже GDDR в пересчете на гигабайт. Это главная причина, почему в массовых игровых картах HBM не используют;
Сложность охлаждения — вертикальные стопки слоев выделяют тепло неравномерно, а разные коэффициенты теплового расширения кремния, микробампов и заполнителя создают механические повреждения. Обеспечить надежность на долгом сроке при рабочих температурах под 95 °C — нетривиальная задача;
Негибкость объема — нельзя взять и добавить памяти, заменив блок на более емкий. Конфигурация памяти зашита еще на этапе производства ускорителя.
Выход годных ячеек — если дефект попадает в критический TSV или соединение стека, бракуется дорогостоящая сборка целиком. Выход годных чипов улучшается, но все еще ниже, чем в индустрии дискретных DRAM.

HBM в CPU и потребительских GPU

Когда индустрия распробовала все перспективы памяти HBM, ее начали пытаться распихивать по самым неожиданным местам, в частности, серверные центральные процессоры и даже потребительские видеокарты.

Один из ярких примеров раннего внедрения — японские центральные процессоры Fujitsu A64FX 2020 года выпуска, которые сочетали в себе энергоэффективную архитектуру Arm и высокоскоростную память HBM2 объемом 32 ГБ на борту, обеспечивающую пропускную способность в 1 ТБ/с. Эти передовые центральные процессоры стали прорывом для своего времени и использовались при построении суперкомпьютерного кластера Fugaku. Intel подхватила инициативу и спустя 2 года выпустила процессоры Xeon Max с 64 ГБ HBM2E на борту со скоростью в 1 ТБ/с (Intel искусственно снизила скорость HBM2E для большей стабильности), и эти чипы также были ориентированы на HPC-системы, но решения оказались огромным провалом из-за неадекватной стоимости и большой конкуренции. Наконец, в 2023 году к теме подключилась и AMD выпустив свой APU-чип MI300A для суперкомпьютера El Capitan, объединив на одной подложке CPU, GPU и пул памяти HBM3 объемом 128 ГБ и с пропускной способностью в 5,3 ТБ/с.

Что касается потребительских GPU, то здесь история использования HBM поучительная. После неудачного релиза Radeon R9 Fury с 4 ГБ HBM и Radeon VII с 16 ГБ HBM2, AMD осознала, что использование высокоскоростной памяти в обычных видюхах очень неуместно — высокая стоимость полностью перебивает избыточный прирост скорости пользовательских задачах, ведь для большинства задач юзеров вполне хватает обычной памяти GDDR. В итоге, повторять за AMD никто не решился, и память HBM окончательно перешла в серверный сегмент без обратного билета.

Процессор Intel Xeon Max c 4 стеками памяти HBM2E. Источник: Techgage.

Аналоги HBM-памяти

В 2026 году в поле зрения ИИ-индустрии все чаще начали мелькать альтернативы HBM-памяти, которые призваны заменить дорогую высокоскоростную память, сохранив или даже расширив ее скоростные показатели:

HB3DM (Hybrid Bonded 3D Memory) — проект SAIMEMORY и Intel, 9‑слойные стеки DRAM на базе технологии ZAM с прямым гибридным соединением слоев без микробампов. Обещает до 5,3 ТБ/с и снижение энергопотребления на 40% относительно HBM4. Прототип намечен на 2027 год, коммерциализация — на 2029-й.
HBF (High Bandwidth Flash) — гибридная память, комбинирующая быстрый DRAM-буфер с массивом флеш‑памяти высокой плотности в одной 3D‑стопке. Предназначена для задач, где критичен огромный объем при сохранении высокой пропускной способности, например, инференс сверхбольших моделей.
HiZQ HBM — аналог памяти HBM2E/HBM3 от китайского производителя CXMT, позиционируется как отечественная альтернатива подсанкционным чипам памяти HBM. Именно эта память легла в основу новейших ИИ-ускорителей Huawei Atlas 950PR.

Выводы

HBM можно вполне успешно назвать краеугольным камнем ИИ-индустрии, ведь именно вокруг доступности и эффективности этого типа памяти зависит то, смогут ли поставщики ИИ-чипов создавать новые решения для выполнения сложнейших задач и масштабирования ИИ-нагрузок. Несмотря на то, что путь HBM начинался в потребительских видеокартах, сейчас этот тип памяти полностью захватил серверный сегмент, и вряд ли он когда-нибудь вернется к своим истокам. Однако на горизонте уже маячат конкуренты в лице HB3DM и HBF, которые претендуют на звание не только более быстрой, но и более экономичной альтернативы HBM.

Автор:

Serverflow