HBM vs GDDR — в чем отличия разных типов видеопамяти в ИИ-ускорителях

27.06.2026

~ 15 мин

Средний

Статьи

Введение

В последние годы эпохи ИИ-бума мы уже успели наслушаться такой фразы, как: “токены — валюта современного мира”. Но если токены это деньги, то видеопамять — это печатная машинка для денег, что наглядно подтверждается нынешними реалиями кризиса памяти. Но почему же видеопамять стала так важна? Все просто: без быстрого и емкого хранилища, которое будет подавать данные в графический процессор, последний будет просто простаивать без работы, и обычная оперативка, как ни странно, не может справиться с такой “оперативной” задачей. Но важна не только скорость и даже не только объем VRAM, но и сам тип видеопамяти: либо GDDR, либо HBM. Несмотря на то, что эти разновидности видеопамяти кардинально отличаются друг от друга, многие до сих пор не понимают, в чем их отличия и зачем вообще нужно такое разделение. Специалисты компании ServerFlow решили развеять завесу тайны, чтобы рассказать вам, в чем особенности памяти GDDR и HBM, в чем их ключевые различия и в каких сценариях они используются.

Как появились разные виды видеопамяти

История видеопамяти началась с того, что обычная системная DRAM перестала успевать за аппетитами графики. В середине 90-х 3D-ускорители (как их тогда было модно называть) вроде 3dfx Voodoo оснащались отдельными чипами EDO DRAM или SGRAM — это была практически та же самая оперативка, что стояла и в материнках. Такая память была очень медленной, хранила мало данных и, к тому же, дорого стоила. Производители быстро поняли: “в графике оперативке не место, тут нужен специализированный тип памяти с широченным потоком данных, чтобы подавать GPU достаточно информации для обработки”.

Видеокарта RIVA TNT с памятью SGRAM. Источник: VC Collection.

Но на рубеже веков, в начале 2000-х, решение проблемы пришло само собой — появилась привычная всем оперативка DDR с лучшей емкостью и пропускной способностью. Она сама по себе подходила для видюх нового поколения, поэтому Nvidia, по традиции, с ходу решила использовать новую технологию для своих GPU, выпустив решение Nvidia GeForce 256 с памятью DDR1. Успех этой карточки укрепил концепцию, что DDR — отличный плацдарм для подачи данных в графический процессор. Поэтому в том же году свет увидела полноценная видеопамять GDDR от Samsung, адаптированная под нужды графики, и ее сразу же взял на вооружение главный на тот момент конкурент Nvidia — компания Radeon (позднее поглощенная AMD), представила видеокарту ATI Radeon DDR.

Одна из первых видеокарт с GDDR-памятью ATi Radeon 64 DDR. Источник: HWP.

Дальше эволюция шла по накатанной: GDDR2, GDDR3, GDDR4 — каждые пару лет удвоение пропускной способности. Но к концу 2000-х рост частот уперся в тепловыделение и сложность разводки плат. Узкая шина (обычно 32 бита на чип) заставляла лепить вокруг GPU десятки микросхем и всеми силами бороться с электромагнитными помехами. Ответом на ограничения GDDR стала HBM (High Bandwidth Memory), впервые появившаяся в 2015 году на, внимание, потребительской видеокарте AMD Radeon R9 Fury X. Очень широкая шина на 1024 бита, многослойная компоновка и размещение на одной подложке с GPU давали огромную пропускную способность и высокую емкость на чип, но в игровом сегменте эта технология себя не нашла — слишком дорого для потребительского рынка, да и огромных FPS достичь не удалось. Зато HBM быстро подхватили на рынке HPC — там такие параметры отлично показывали себя в сложнейших научных вычислениях. А с наступлением ИИ-эпохи, когда GPU начали требовать сотни гигабайт данных в секунды для обработки весов и активаций, HBM окончательно утвердила себя как видеопамять для серверных графических ускорителей.

Первая видеокарта с HBM-памятью AMD Radeon R9 Fury X. Источник: Ebay.

Что такое GDDR

GDDR — это тип динамической оперативной памяти (DRAM), оптимизированный для подачи графических данных в вычислительный чип. В отличие от обычной оперативной памяти, которая использует широкую общую шину (обычно 64 бит на канал), GDDR оперирует узким каналом (обычно 32 бит на чип), но за счет большого количества чипов видеопамяти на плате, общая шина достигает ширины 128, 256, 384 или даже 512 бит. Например, у GPU с шиной 384 бита таких чипов будет 12 (как в RTX 3090), а у GPU с шиной 512 бит таких чипов будет 16 (как у RTX 5090). Такой подход дешев и гибок — можно наращивать емкость и пропускную способность простым добавлением чипов, но это усугубляет влияние электромагнитных помех.

Передача данных внутри GDDR построена на многоуровневой сигнализации. GDDR6X использовала PAM-4 (четыре уровня напряжения на такт, 2 бита за передачу), но из-за электромагнитных шумов в GDDR7 перешли на PAM-3 (три уровня). Это позволяет добиться значительного увеличения тактовых частот вплоть до десятков гигагерц, что напрямую влияет на увеличение пропускной способности, но для адекватной передачи данных инженерам приходится задирать тайминги и использовать ECC GDDR в серверных ускорителях. Кроме того, GDDR использует двойную передачу данных по синхросигналу, что дает эффективную частоту вдвое выше реальной тактовой.

Еще один важнейший параметр GDDR — организация банков и длина пакетов. GDDR оптимизирована под длинные последовательные запросы: контроллер памяти запрашивает сразу блок данных (типично 32 байта), а большое количество банков (16-32 на чип) позволяет чередовать запросы, скрывая задержки подготовки строк (tRCD). В итоге при последовательном чтении больших текстур или тензоров GDDR выжимает почти всю теоретическую пропускную способность, но при случайном доступе задержки становятся ощутимыми.

Само собой, все эти технологические наворочки раздувают энергопотребление до предела — один чип GDDR может потреблять 5-10 Вт , и дюжина таких вокруг GPU легко добавляет 60-100 Вт к тепловому пакету карты. Чтобы хоть как-то уменьшить нагрузку, питание подается отдельными фазами на модули памяти и используется усиленное охлаждение.

Банки памяти GDDR5 на потребительской видеокарте AMD.

Что такое HBM

Многие считают, что HBM — это какой-то отдельный вид видеопамяти, но на самом деле она представляет из себя те же самые кристаллы динамической оперативки, но наложенные друг на друга с помощью 3D-стэкирования. Каждый этаж стэка — это полноценный чип памяти (от 4 до 16 штук), а связываются они через технологию Through-Silicon Vias (TSV) — особые вертикальные проводники, проходящие сквозь толщу кремния и сшивающие отдельные кристаллы DRAM в единый чип. Такая компоновка позволяет получить очень широкую шину (1024 бита на стек), но налагает жесткие ограничения на теплоотвод: чипы в середине стопки греются намного сильнее крайних, а охлаждать их из-за компоновки сложнее. Именно поэтому HBM работает на низких частотах в сравнении с GDDR — 1-3 ГГц вместо десятков ГГц, но за счет высокого параллелизма шины пропускная способность HBM все равно огромна и достигает нескольких терабайт данных в секунду.

Кроме того, HBM активно использует концепцию псевдоканалов. Каждый стек HBM логически разбит на 16 независимых каналов по 64 бита каждый (в HBM3 и HBM3E), и каждый канал представляет из себя полноценную подсистему с собственными банками, строками и очередями команд. Такая обособленность каналов позволяет HBM одновременно обслуживать 16 разных запросов, что резко повышает эффективную пропускную способность, особенно при смешанных нагрузках. Контроллер памяти GPU видит каждый псевдоканал как отдельный интерфейс и распределяет запросы между ними.

Но и на этом не все, ведь у HBM есть еще один козырь в рукаве — стэки HBM расположены непосредственно на одной подложке с GPU, в непосредственной близости от логического кристалла: доли миллиметра, вместо десятков сантиметров у GDDR, которые просто распаиваются на печатной плате. Отсюда исходит колоссальная энергоэффективность — HBM передает бит данных кратно дешевле, чем GDDR. И, само собой, у всех поколений HBM, начиная с HBM2, имеется поддержка ЕСС, так как этот тип памяти используется исключительно в корпоративном сегменте рынка, а также расширенные возможности RAS (Reliability, Availability, Serviceability).

Чипы памяти HBM3 на ИИ-ускорителе Nvidia GH100.

HBM vs GDDR — сценарии использования видеопамяти

С характеристиками разобрались. Теперь к тому, ради чего все затевалось — куда какую память ставят и почему. Инженерный выбор между HBM и GDDR не имеет ничего общего с войнами фанатов AMD и Nvidia. Все упирается в конкретную задачу: объем данных, паттерн доступа, бюджет по энергопотреблению и допустимую цену. Где‑то нужны сотни гигабайт с терабайтной пропускной способностью, и тогда без HBM вы даже не стартуете. А где‑то задача прекрасно ложится на GDDR, сохраняя бюджет и не требуя жертвоприношений в виде тысяч баксов на энергию и отвод тепла. Давайте разложим по полочкам, какой тип памяти выигрывает в каждом сценарии.

ИИ-обучение. Для тренировки актуальных открытых MoE-моделей вроде DeepSeek‑V4 или Qwen 3.6 без HBM не обойтись. В смешанной точности FP8/FP16 одна только модель вместе с оптимизаторами и градиентами требует более 300 ГБ. Ускорители NVIDIA B300 с 288 ГБ HBM3E или AMD Instinct MI350P с 256 ГБ HBM3E умещают такую нагрузку на одном узле, а пропускная способность 8-10 ТБ/с не дает тензорным ядрам простаивать. GDDR‑решения, включая RTX PRO 6000 (96 ГБ GDDR7), для обучения подобных моделей не применяются: объема памяти не хватит даже на одну реплику, а попытки разрезания на десятки карт упираются в латентность межсоединений.
ИИ-инференс. Для средних по размеру открытых моделей (Qwen 3.6‑35B) GDDR‑ускорители занимают нишу оптимального соотношения цены и производительности. Карты вроде RTX PRO 6000 с 96 ГБ GDDR7 вмещают модель целиком и позволяют обслуживать сотни одновременных запросов с задержкой меньше 50 мс. Когда же нужно генерировать токены гигантам класса DeepSeek‑V4 или Qwen 3.6, в дело вступают HBM‑ускорители: B300 или MI350X не только дают нужный объем, но и держат стабильный поток данных без просадок при пиковых нагрузках, что критично для мультиагентных систем.
HPC. Задачи вычислительной гидродинамики, молекулярной динамики и графовых баз данных порождают хаотичный доступ к огромным массивам памяти. HBM выигрывает за счет низкой латентности и 16 независимых псевдоканалов на стек. Кластеры на базе AMD Instinct MI300A или NVIDIA Grace Hopper (оба с HBM3/HBM3E) удерживают загрузку вычислительных блоков близкой к пиковой, тогда как GDDR‑решения в HPC применяются лишь в бюджетных кластерах, где важнее стоимость гигабайта, а не абсолютная производительность.
Видеонаблюдение и edge‑аналитика. На периферии рулит цена и компактность. Серверы аналитики видеопотоков, обрабатывающие десятки камер с моделями YOLO‑подобных архитектур, как правило, оснащаются картами с GDDR6/6X — ее пропускной способности хватает для одновременного инференса, а разница в цене по сравнению с HBM огромна. HBM на edge‑серверах появляется лишь там, где без нее не обойтись — например, при запуске тяжелых моделей уровня Qwen 3.5‑VL.
Игровые нагрузки. В играх и потребительских 3D‑приложениях правит бал GDDR. Флагманские карты вроде RTX 5090 с 32 ГБ GDDR7 и пропускной способностью свыше 2 ТБ/с легко тянут 4K с трассировкой лучей. HBM в этом сегменте избыточна и бешено дорога: даже Radeon VII с 16 ГБ HBM2 не показала заметного игрового преимущества, а стоила значительно дороже. GDDR остается стандартом для геймеров и рабочих станций, где важен большой объем памяти при разумной цене.

Выводы

Противостояние HBM и GDDR — это не битва насмерть, а грамотное разделение труда. GDDR закрывает собой гигантский рынок игровых и профессиональных видеокарт, а также все увереннее заходит на территорию серверного инференса благодаря GDDR7 с ее рекордными скоростями и увеличенными объемами. HBM остается безоговорочным стандартом для обучения больших языковых моделей и высокопроизводительных вычислений, где важны каждый джоуль и каждый гигабайт пропускной способности. Выбирая между ними, вы по сути выбираете между “достаточно быстро и дешево” и “максимально быстро и энергоэффективно”. И пока первое нужно каждому геймеру и стартапу, а второе — каждому облачному гиганту, обе технологии будут развиваться параллельно, подталкивая друг друга вперед.

Автор:

Serverflow