Видеокарты — это, наверное, самое востребованное аппаратное решение на современном рынке, ведь вся индустрия искусственного интеллекта держится именно на GPU. Однако, в текущих реалиях, для работы с нейронками подойдет далеко не каждая видюха — какие-то потеряли свою актуальность, какие-то недостаточно мощны для работы с LLM, а какие-то вовсе не предназначены для подобного рода задач. Ввиду этого, мы решили переосмыслить и обновить наш старый топ-10 лучших видеокарт для инференса и обучения нейронок, убрав устаревшие решения (P100, P40, MI50, V100 и им подобные), поскольку ныне они уже не поддерживаются со стороны софта, либо их мощностей перестало хватать для современных LLM.
На что опираться при выборе видеокарты?
Прежде чем переходить к ключевым характеристикам при выборе видеокарты для ИИ, давайте сразу разграничим два ключевых понятия — инференс и обучение нейронок.
Инференс — это когда у вас уже есть готовая обученная модель (допустим, Qwen 3.6 или GLM-5.1), вы ее загружаете в память ускорителя и заставляете генерировать ответы. Это узкая, конкретная задача: быстро прокачать токены через модель и выдать результат пользователю.
Обучение — это когда вы берете датасет и начинаете подкручивать веса модели под свои задачи, что требует хранения в памяти не только самих весов, но и оптимизаторов, градиентов и промежуточных активаций. Это значительно более широкая и требовательная задача.
В нашем топе мы не стали фокусироваться на конкретном сценарии, поэтому по ходу описания каждой карты мы будет честно говорить, для какой задачи лучше подойдет тот или иной ускоритель.
Объем видеопамяти
Объем видеопамяти — это первое, на что вы должны смотреть. Не на терафлопсы, не на количество ядер — именно гигабайты. Почему? Да потому что если модель не влезает во VRAM видеокарты, то она просто не запустится. Можно сколько угодно рассуждать о производительности H100, но если у вас карта с 24 ГБ, а модель даже в 4-битном варианте занимает 40+ ГБ, можете даже не пытаться — заинференсить модель не выйдет, даже если вы внук Дженсена Хуанга. Наш топ мы начнем с ускорителей с 32 ГБ видеопамяти, так как на момент написания статьи такое количество является оптимальным стандартом для первоначального вката в работу с ИИ. С 32 ГБ вы не заперты в мире 4-битных квантизаций мелких моделей: можно запустить Qwen-3.5 9B в FP16, можно работать с Gemma 4 27B в Q6 и Q8, вы можете даже попытаться заинференсить 70B-модели в 3-битном сжатии. Но если вы планируете обучать нейронки, то ваш базовый минимум — 48 ГБ и выше, так как веса и градиенты сжирают память как не в себя.
Скорость памяти
Тут все просто: чем быстрее память — тем быстрее работает нейронка. Но если в инференсе скорость памяти важна лишь опосредованно, то в обучении эта характеристика является чуть ли не самой важной. Если у ускорителя высокоскоростная память HBM, то знайте: эта видюха проектировалась именно для обучения. Поколение памяти HBM говорит о возрасте GPU и, что самое важное, скорости памяти — HBM2E дает до 1,6 ТБ/с, HBM3 дает до 3,35 ТБ/с и т.д. Терабайтная скорость критически важна для обновления градиентов, обработки весов и непрерывной перегонки данных нейронки в огромных объемах — без этого обучить нейронку у вас просто не выйдет. Для инференса на одном пользователе все куда более демократично — высокая пропускная способность памяти тоже дает прирост, но не особо большой, и после определенного порога вы упираетесь не в память, а в вычислительную мощность, особенно на больших батчах. Инференс — узкая задача, а обучение — широкая. Поэтому ускорители, спроектированные для обучения (H100, H200, A100), универсальны: они отлично справляются и с тем, и с другим. А карты, созданные чисто под инференс (RTX PRO 6000 Blackwell), могут быть намеренно ограничены производительностью в тренировочных задачах, даже имея внушительный объем памяти.
Производительность и режимы вычислений
Очевидно, что чем больше терафлопс у GPU, тем лучше будет работать нейронка. А вот о режимах вычислений стоит поговорить подробнее. Есть такая штука, как квантизация — о ней у нас есть отдельная статья, поэтому распишем об этом феномене в двух словах. Если коротко, то это сжатие весов модели с высокой точности (FP16/BF16) до низкой (FP8, FP4), чтобы уменьшить ее размер и ускорить вычисления с определенной потерей точности. Если вы хотите сжимать нейронку лучше, но чтобы у нее осталось достаточно мозгов для качественных ответов, вам нужны более современные режимы вычислений, которые должны поддерживаться тензорными ядрами вашего ускорителя. Если поддержки нет, то пиши пропало — придется довольствоваться полноразмерными нейронками, которые обычно весят ой как много. Но справедливости ради: если вы работаете через движок llama.cpp, вы можете легко запускать целочисленные форматы моделей (Q4_K_M, Q6_K, IQ4_XS) на практически любом железе, даже без аппаратной поддержки INT8/FP8/FP4. llama.cpp сам организует вычисления и сделает это эффективно. Поэтому в нашем топе есть не только топовые ускорители с FP8 и FP4, но и старички, которые тянут только FP16, и для инференса через llama.cpp их по-прежнему хватает с головой.
Топ лучших видеокарт для инференса и обучения ИИ
Ну чтож, хватит парить вам голову теорией, теперь переходим к самому вкусному. Ниже — топ 10 лучших ИИ-ускорителей для инференса и обучения моделей искусственного интеллекта.
AMD Radeon AI PRO R9700 AI TOP 32GB GDDR6
AMD Radeon AI PRO R9700 AI TOP.
Начинаем с младшего представителя красного лагеря — видеокарты AMD Radeon AI PRO R9700 AI TOP. Это решение на самой актуальной графической архитектуре AMD RDNA 4, которая изначально проектировалась с прицелом на потребительские ИИ-нагрузки, такие как локальный инференс. Карта оснащена 32 ГБ памяти GDDR6 с пропускной способностью 640 ГБ/с, графический чип имеет 64 вычислительных блока и 128 ИИ-блоков.
FP4 в Radeon AI PRO R9700 AI TOP, к сожалению, нет и не будет — это архитектурное ограничение архитектуры RDNA 4. Зато есть поддержка FP8, что для этого ускорителя очень неплохо. Если запускать модели через llama.cpp, проблем не будет вообще: 4-битные модели в Q4_K_M или Q6_K спокойно влезают в 32 ГБ и работают стабильно. Но про обучение можно только мечтать — RDNA 4 для этого просто не приспособлена: оптимизаторы, градиенты, батч-нормализация — все это ляжет на плечи программной эмуляции и будет невыносимо медленно, так как у AMD есть отдельная архитектура CDNA для тренировки нейронок.
Нашими ИИ-специалистами было доказано на практике, что в инференсе AMD Radeon AI PRO R9700 AI TOP показывает себя вполне уверенно, а расширение поддержки фирменного программного стэка AMD ROCm делает эффективность этого ускорителя еще выше с каждым днем. Кроме того, эта видюха — самое бюджетное решение для эффективного локального инференса, у нас такого “монстра начального уровня” можно урвать всего за 200 тысяч рублей. AI PRO R9700 AI TOP — это входной билет в мир инференса от AMD: для экспериментов с LLM и легких генеративных моделей. Как и у многих профессиональных ускорителей, у этого чипа есть серверная версия с пассивным охлаждением. Но их откровенно мало на рынке, и достать такую — тот еще квест. Зато турбинных версий с активным охлаждением полным полно.
Характеристика
AMD Radeon AI PRO R9700 AI TOP
Объем VRAM
32 ГБ GDDR6
Пропускная способность памяти
644 ГБ/с
Кол-во матричных ядер
128
TDP
300 Вт
FP16
191 TFLOPS
FP8
383 TFLOPS
NVIDIA RTX PRO 4500 Blackwell 32GB GDDR7
NVIDIA RTX PRO 4500 Blackwell.
Следующий экспонат — NVIDIA RTX PRO 4500 Blackwell, самый младший представитель флагманской графической архитектуры Nvidia Blackwell в нашем топе. Да, есть Blackwell-карты и послабее (RTX PRO 2000 и 4000), но мы уже говорили, что минимальная планка — 32 ГБ, поэтому взяли в топ именно эту карту. RTX PRO 4500 может похвастаться поддержкой режима FP4 через тензорные ядра пятого поколения, а значит, вы можете запускать модели в фирменном формате Nvidia NVFP4 и получать двукратный выигрыш по памяти без видимой потери качества. Карта оснащается 32 ГБ памяти GDDR7 последнего поколения с ECC-коррекцией ошибок на 256-битной шине и пропускной способностью 896 ГБ/с — это серьезный уровень для карты такого класса.
Blackwell — это бренд, где нет вообще никаких проблем. Самые современные драйверы, полная поддержка CUDA 12, новейший TensorRT-LLM, бесшовная работа с vLLM и Triton Inference Server — все это работает из коробки и без танцев с бубном. В сравнении с Radeon R9700 RTX PRO 4500 выигрывает по всем фронтам: мощнее, быстрее, с более зрелым программным стеком. У NVIDIA такая огромная база по ПО, что на Blackwell можно даже обучать — файнтюнинг небольших моделей на 32 ГБ на, казалось бы, потребительской NVIDIA RTX PRO 4500, вполне реален, особенно с грамотным использованием чекпоинтов и LoRA.
Недавно NVIDIA добавила серверную версию RTX PRO 4500 с пассивным охлаждением и сниженным до 165 Вт TDP — то что нужно для плотной серверной компоновки. Но даже активная версия потребляет всего 200 Вт, и проблем с охлаждением не возникнет.
Характеристика
RTX PRO 4500 Blackwell
Объем VRAM
32 ГБ GDDR7
Пропускная способность памяти
896 ГБ/с
Кол-во тензорных ядер
328
TDP
200 Вт
FP16
406 TFLOPS
FP8
811 TFLOPS
FP4
1600 TFLOPS
AMD Radeon Instinct MI100 32GB HBM2
AMD Radeon Instinct MI100.
Снова возвращаемся к решениям AMD, но тут ситуация принимает совершенно другой оборот, ведь Radeon Instinct MI100, в отличие от AMD Radeon AI PRO R9700 — это уже полноценный серверный ИИ-ускоритель для обучения ИИ. MI100 — первый ускоритель в нашем топе с памятью типа HBM. Конкретно здесь стоит 32 ГБ HBM2 с пропускной способностью 1,23 ТБ/с — это почти вдвое выше, чем у R9700. Несмотря на это, карта не греется выше 300 Вт, что будет очень кстати для создания плотных вычислительных систем.
AMD Radeon Instinct MI100 вышла в далеком 2020 году, и за время своего существования она завоевала звание легенды в мире обучения и инференса ИИ. Даже несмотря на отсутствие поддержки режимов вычислений FP8 и FP4, карта все равно показывает неплохие результаты за счет архитектуры CDNA первого поколения со 120 вычислительными блоками — решения на этой микроархитектуре до сих пор поддерживаются AMD, на них выходят новые драйверы и есть поддержка стэка ROCm, в отличие от Instinct MI50 на базе GCN, которая окончательно выпала из актуальных версий библиотек.
Да, работать с нейронками придется через llama.cpp, но с учетом того, что б/ушные Radeon Instinct MI100 стоят чуть ли не столько же, сколько потребительские AMD Radeon AI PRO R9700, вы точно не будете разочарованы покупкой.
Характеристика
Radeon Instinct MI100
Объем VRAM
32 ГБ HBM2
Пропускная способность памяти
1,2 ТБ/С
Кол-во матричных ядер
120
TDP
300 Вт
FP16
184 TFLOPS
NVIDIA A100 40GB HBM2E
NVIDIA A100 40 ГБ.
Продолжаем выкапывать почетных старичков, и на очереди у нас легендарная NVIDIA A100 40GB HBM2E, ведь именно на этой карточке в свое время обучалась и инференсилась ИИ-модель ChatGPT 3.5, навсегда изменившая мир LLM.
A100 универсальна — она прекрасно подходит и для инференса, и для тренировок. Пропускная способность 40 ГБ памяти HBM2E составляет около 2,0 ТБ/с — не рекорд 2026 года, но этого все еще более чем достаточно для инференса моделей уровня 32B и 70B в 4-битном сжатии. Видюха A100 базируется на архитектуре Ampere, которая раньше была как Blackwell в наше время. И пусть вас не смущает, что на Ampere базировались игровые видюхи, ведь A100 — это далеко не RTX 3090, а принципиально другой продукт с поддержкой ECC-памяти, MIG-сегментацией и интерконнектом NVLink.
A100 встретится в рейтинге дважды, чуть ниже увидите улучшенную версию этой видеокарты. Но даже младшая модель заслуживает уважения: быстрая HBM-память, поддержка INT8 и BF16 на тензорных ядрах, никаких проблем с охлаждением благодаря TDP 250 Вт. Если бюджет ограничен, но хочется прикоснуться к тому самому железу, на котором создавались первые GPT — A100 станет лучшим выбором.
Характеристика
Nvidia A100
Объем VRAM
40 ГБ HBM2e
Пропускная способность памяти
1,56 ТБ/с
Кол-во тензорных ядер
432
TDP
250 Вт
FP16
77 TFLOPS
NVIDIA RTX PRO 5000 Blackwell 48GB GDDR7
NVIDIA RTX PRO 5000 Blackwell.
Не спешите писать, что от Blackwell уже глаза мозолит — ниже мы затронем еще один ускоритель из этого семейства. А сейчас в нашем поле зрения NVIDIA RTX PRO 5000 Blackwell — очень крепкий середнячок, который забирает все лавры от флагманской микроархитеутры Хуанга: поддержка FP4, пятое поколение тензорных ядер, GDDR7 с ECC, PCIe 5.0 x16 интерфейс. Но в отличие от RTX PRO 4500, модель RTX PRO 5000 имеет аж на 40% больше ядер — 14 080 CUDA-ядер против 10 496 у 4500, и 48 ГБ памяти вместо 32 ГБ. Вместе с увеличенным объемом памяти вы получаете большой прирост скорости: пропускная способность памяти достигает 1,3 ТБ/с.
Если вам мало 48 гигов, Nvidia также подготовила для вас версию RTX PRO 5000 Blackwell с 72 ГБ видеопамяти, но из-за глобального кризиса памяти ее, к сожалению, практически невозможно достать — такие уникальные решения сразу же отгружаются корпоративным заказчикам. Но не расстраивайтесь, смертные, ведь 48 ГБ вполне достаточно для инференса LLM среднего размера.
Карта потребляет 300 Вт — вполне умеренное энергопотребление, а в купе с активным, турбинным охлаждением у вас не составит никаких проблем зарядить свой сервер NVIDIA RTX PRO 5000 Blackwell и приступить к работе с ИИ. Если бюджет позволяет — покупайте NVIDIA RTX PRO 5000 Blackwell, и вы не пожалеете: модели 70B в Q6 влезают целиком без каких-либо костылей, инференс быстрый, как некоммерческий гиперкар Сэма Альмана, а файнтюнинг средних моделей реален настолько же, насколько реален инференс DeepSeek R1 на H100.
Характеристика
RTX PRO 5000 Blackwell
Объем VRAM
48 ГБ GDDR7
Пропускная способность памяти
1,3 ТБ/с
Кол-во тензорных ядер
440
TDP
300 Вт
FP16
277 TFLOPS
FP8
550 TFLOPS
FP4
1100 TFLOPS
AMD Radeon Instinct MI210 64GB HBM2E
AMD Radeon Instinct MI210 и MI100 ничем не отличаются друг от друга, чего не скажешь о профессиональных ускорителях, вроде Radeon Pro WX8200.
И снова в рейтинг врывается AMD, правда, не без нашей помощи — все-таки хочется слегка разбавить зеленые цвета частичкой красного. Но если серьезно, то Radeon Instinct MI210 вполне заслуживает свое место в топе — усовершенствованная архитектура CDNA второго поколения и 64 ГБ HBM2E с пропускной способностью 1,6 ТБ/с, чего вполне хватает для комфортного запуска моделей с 70+ млрд параметров, даже без поддержки режима FP8. При этом энергопотребление карточки не улетает в космос — всего 300 Вт.
Интересная особенность: потоковых процессоров у MI210 меньше (104), чем у MI100 (120), что объясняется особенностями с переходом на улучшенную архитектуру и более совершенный техпроцесс. Несмотря на это, ИИ-производительность в BF16 у MI210 в два раза выше, чем у MI100 благодаря выполнению сразу двух операций в BF16 за такт. Кроме того, использование более быстрой памяти HBM2E вместо HBM2 и, к тому же, 2-кратное увеличение емкости VRAM, позволяет эффективно запускать и обучать объемные ИИ-модели без квантизации.
Характеристика
Radeon Instinct MI210
Объем VRAM
64 ГБ HBM2E
Пропускная способность памяти
1,6 ТБ/с
Кол-во матричных ядер
416
TDP
300 Вт
FP16
181 TFLOPS
NVIDIA A100 80GB HBM2E
NVIDIA A100 80 ГБ.
А вот и тот самый апгрейд A100, и логика модификации проста — в 2 раза больше VRAM за счет установки более емких и современных кристаллов HBM2E. Это отлаженная стратегия Nvidia, которая применялась на практике неоднократно — компания научилась ловко договариваться с поставщиками памяти и по мере зрелости техпроцесса ставить на плату кристаллы HBM большей емкости.
Версия A100 на 80 ГБ — это уже серьезный уровень. С таким объемом можно спокойно нарезать одну физическую A100 на несколько виртуальных ускорителей, каждый с гарантированным объемом памяти и пропускной способностью, и обслуживать несколько моделей одновременно. У ммладшей 40 ГБ версии MIG тоже есть, но толку от нее мало — нарезать 40 ГБ на куски по 10 ГБ под современные LLM просто несерьезно.
А100 80GB все еще актуальна: память HBM2e с пропускной способностью ~2,0 ТБ/с, тензорные ядра третьего поколения с поддержкой BF16, NVLink для объединения двух карт в пул 160 ГБ. Для инференса 100B-моделей в 4-битном сжатии — это идеальный вариант. Для обучения средних моделей (7B, 13B) A100 по-прежнему считается рабочей лошадкой.
Характеристика
A100
Объем VRAM
80 ГБ HBM2E
Пропускная способность памяти
2 ТБ/с
Кол-во тензорных ядер
432
TDP
300 Вт
FP16
312 TFLOPS
NVIDIA H100 OEM 80GB HBM3
NVIDIA H100.
Вот мы и переходим к тяжелой артиллерии — на очереди H100 80 ГБ которая, наверное, является самым легендарным ИИ-ускорителем Nvidia, изменившим мир ИИ-вычислений. Производительность выросла кратно относительно A100, потому что NVIDIA сделала то же, что и AMD — разделила архитектуры. Hopper для корпоративного ИИ, Ada Lovelace для потребительского сегмента. Это была самая спорная ставка NVIDIA, и результат себя оправдал: H100 стала основным драйвером роста всей ИИ-индустрии.
Ускоритель имеет аж 80 ГБ памяти HBM3, которая обеспечивает колоссальную пропускную способность в 3,35 ТБ/с. Но на этом еще не все, ведь H100 были внесены жесткие архитектурные изменения, которые потом стали основой — в частности, был добавлен Transformer Engine и обновленные тензорные ядра четвертого поколения, которые привнесли новый режим вычислений FP8. Но FP4 здесь нет (это прерогатива Blackwell), однако для инференса через vLLM в FP8 H100 выдает потрясающие результаты.
H100 может делать то, чего даже RTX PRO 6000 Blackwell Server Edition не всегда может. В обучении H100 сильно лучше RTX PRO 6000 Blackwell Server Edition — за счет HBM3 вместо GDDR7, за счет NVLink на 900 ГБ/с, за счет архитектурных оптимизаций Hopper именно под тренировочные нагрузки. В инференсе у них почти одинаковые результаты, но в купе H100 уничтожает RTX PRO 6000 именно как универсальный инструмент. H100 все еще пользуется огромным спросом, поэтому ценники на этот ускоритель все еще держатся на высоте.
Характеристика
H100
Объем VRAM
80 ГБ HBM2e
Пропускная способность памяти
2 ТБ/с
Кол-во тензорных ядер
456
TDP
350 Вт
FP16
756 TFLOPS
FP8
1 513 TFLOPS
NVIDIA RTX PRO 6000 Blackwell Server Edition 96GB GDDR7
NVIDIA RTX PRO 6000 Blackwell Server Edition.
Ну чтож, пришло время поговорить о RTX PRO 6000 Blackwell Server Edition — самом лучшем ИИ-ускорителе для локального инференса. Начинка решения может впечатлить даже самого искушенного серверного энтузиаста: внутри 96 ГБ GDDR7 ECC на 512-битной шине с пропускной способностью 1,6 ТБ/с, 24 064 CUDA-ядер, тензорные ядра пятого поколения с поддержкой FP4 — это буквально самое производительное решение для запуска нейронок на своем железе на данный момент, и Nvidia позиционирует свой магнум-опус именно так.
Но не думайте, что RTX PRO 6000 Blackwell Server Edition подойдет и для обучения нейронок, ведь Nvidia искусственно занизила эффективность этой карточки в тренировочных задачах. Конечно, всякую мелочь на нем дообучить вполне можно, но ведь для 96 гигов так и напрашивается потренировать какую-нибудь Qwen3.5-397B-A17B с мощным квантованием, но нет — 1,6 ТБ/с на GDDR7 будут как мертвому припарка в сравнении со скоростью той же H100.
Если сравнивать RTX PRO 6000 с RTX PRO 5000, то у первой будет аж на 71% больше ядер. Это колоссальное отличие, два совершенно разных уровня производительности. Но и TDP соответствующий — RTX PRO 6000 греется до 600 Вт. Чтобы поставить такую горячую штучку в систему, у сервера должно быть продуманное охлаждение: пассивная серверная версия требует мощного потока воздуха в стойке, активная — хорошей циркуляции воздуха. RTX PRO 6000 — это самая дорогая карта такого формата, но при этом она дешевле, чем H100, хотя в инференсе RTX PRO 6000 действительно сопоставима по скорости со своим старшим братом. Но в обучении перекос будет однозначно в сторону H100.
Характеристика
RTX PRO 6000 Blackwell Server Edition
Объем VRAM
96 ГБ GDDR7
Пропускная способность памяти
1,5 ТБ/С
Кол-во тензорных ядер
752
TDP
600 Вт
FP16
504 TFLOPS
FP8
1008 TFLOPS
FP4
2016 TFLOPS
NVIDIA H200 NVL 141GB HBM3E
NVIDIA H200 NVL.
И, наконец, финалист нашего топа, самая лучшая видеокарта для обучения (и инференса) ИИ-моделей из доступных на рынке, легендарная Nvidia H200 NVL 144 ГБ. Логика апгрейда, по сути, такая же, что и A100: NVIDIA дожидается созревания техпроцесса HBM и ставит на проверенную архитектуру Hopper более емкие и скоростные чипы памяти. В случае H200 NVL это память HBM3E, которая дает 141 ГБ видеопамяти с ECC. Пропускная способность памяти достигает колоссальных 4,8 ТБ/с, что пока является абсолютным рекордом среди серийных ускорителей.
Такой объем VRAM в одночиповом исполнении — это квантовый скачок в сравнении с H100, 80 ГБ который заставлял идти на компромиссы при работе с моделями на 70+ миллиардов параметров, тогда как H200 NVL позволяет загружать 170B‑модели в FP8 целиком, не прибегая к тензорному параллелизму и не теряя драгоценное время на коммуникацию между картами. Для инференса это означает, что можно держать в памяти всю модель, включая RAG-контексты и агентные системы, обслуживая сотни одновременных запросов без деградации. Именно поэтому H200 стала основой инференс-ферм у ключевых игроков облачного рынка.
А в сценариях обучения H200 NVL чувствует себя как рыба в воде. Бешеная пропускная способность HBM3E начисто убирает бутылочное горлышко памяти, которое раньше душило вычислительные блоки на больших батчах. Градиенты, состояния оптимизатора и активации перемалываются с такой скоростью, что даже тренировка плотных моделей уровня Llama* 4 и Qwen 3.6 перестает быть подвигом. Добавьте сюда Transformer Engine с поддержкой FP8, аппаратные тензорные ядра четвертого поколения и возможность объединять четыре карты через NVLink в единый домен памяти объемом под терабайт, и станет понятно, почему ИИ-компании всего мира охотятся именно за H200 NVL.
Характеристика
H200 NVL
Объем VRAM
141 ГБ HBM3e
Пропускная способность памяти
4,8 ТБ/с
Кол-во тензорных ядер
456
TDP
600 Вт
FP16
835 TFLOPS
FP8
1 671 TFLOPS
AMD Radeon Instinct MI350P 144GB HBM3E
AMD Radeon Instinct MI350P. Источник: .
Пока мы писали эту статью, AMD решила неожиданно ворваться в наш топ со своим новым ИИ-ускорителем MI350P с интерфейсом подключения PCIe, который автоматически занимает позицию самого лучшего ИИ-ускорителя среди всех доступных на рынке решений. AMD, подобно NVIDIA, использовала проверенную стратегию: взять передовую архитектуру CDNA 4, урезать ее ровно вдвое от флагманского MI350X и установить на стандартную PCIe-карту с воздушным охлаждением. Получилась рабочая лошадка, которая способна безболезненно интегрироваться в существующую серверную инфраструктуру и сделать из нее настоящую ИИ-конфетку для локального инференса
Сердцем MI350P является GPU-чип на передовом 3-нм техпроцессе TSMC с 73 миллиардами транзисторов и 512 матричными ядрами. В паре с этим чипом работает 144 ГБ памяти HBM3E на 4-канальной шине, обеспечивающей пропускную способность 4 ТБ/с и дополненной 128 МБ Infinity Cache. Это позволяет загружать большие языковые модели (LLM) с десятками и сотнями миллиардов параметров, а также размещать сложные RAG-конвейеры и агентные системы на одном ускорителе, обслуживая множество запросов без деградации.
Но где MI350P действительно раскрывается, так это в скорости. AMD заявляет впечатляющие 2,3 PFLOPs для операций FP16 и MXFP8, а в режиме с разреженностью и на еще более низких точностях MXFP4 и MXFP6 эта цифра достигает астрономических 4,6 PFLOPS. Это позволяет приблизиться к производительности “больших” OAM-ускорителей на значительно более доступном и гибком носителе. Благодаря этому MI350P демонстрирует на 43% более высокую теоретическую производительность в FP16 и на 39% в FP8 по сравнению с прямым конкурентом — NVIDIA H200 NVL. При цене около $3000-$4000 и возможности свободной установки в стандартные серверы, MI350P — это лучший ИИ-ускоритель на рынке корпоративного ИИ.
Характеристика
MI350P
Объем VRAM
144 ГБ HBM3E
Пропускная способность памяти
4 ТБ/с
Кол-во матричных ядер
512
TDP
600 Вт
FP16
1.15 PFLOPS
FP8/MXFP8
2,3 PFLOPS
MXFP4/MXFP6
4.6 PFLOPS
Выводы
Что ж, вот мы и перебрали всю свору актуальных ускорителей — от бюджетных входных билетов до откровенно бескомпромиссных HPC-монстров, от которых у рядового энтузиаста может начать дергаться глаз при взгляде на ценник. Рынок железа для ИИ сейчас наполнен решениями на любой бюджет: хочешь — бери демократичное решение на RDNA 4 или младшем Blackwell, хочешь — забирай полноценный серверный ускоритель из проверенных A100 и MI100, а если запросы вовсе королевские — к твоим услугам решения H100 и H200 NVL, которые способны переварить терабайты данных без капли пота на радиаторе. Но у каждой карты есть свои нюансы, с некоторыми из которых смогут справиться только опытные энтузиасты. Но вам не обязательно заморачиваться, ведь вы можете просто обратиться в компанию ServerFlow — мы подберем идеальный GPU и другие компоненты для вашей архитектуры, развернем подходящую ИИ-модель под ваши задачи и проведем вас за руку от покупки оборудования до его запуска в продакшен.
тоже хочу начать изучение ии моделей на любительском уровне, хочу купить 5060 ti 16gb или 5070, не уверен что лучше
Passerby
25.10.2025
Как бэ, стоило бы уточнить, что все эти видеокарты, кроме геймерских Nvidia 4090 - коммерческое решение для бизнеса. Ибо стоят а среднем 1-3 миллиона рублей.
Serverflow
Вот тут не до конца согласны :) В нашем топе представлены GPU под разные бюджеты, например Tesla P100 на нашем сайте стоит 41 900 рублей*, или Tesla P40 за 44 000 рублей*. Так что и для задач ИИ в потребительских целях варианты есть! *(информация по ценам актуальная на 25 октября 2025 года)
Владимир
14.04.2025
Уважаемые авторы. Почему в топе нет RTX5080 и 9070XT? Вы же про них писали статьи.
Serverflow
Формат материала был ограничен 10 позициями, поэтому некоторые видеокарты пришлось отложить, можете вносить свои предложения ко второй части материала! :)
Шишко
11.04.2025
Гид полезный, но имеется ощущения, что забыли добавить некоторые видеокарты
Serverflow
Можете смело предложить, какие бы Вы хотели видеть в этом топе, мы открыты к идеям :)
Денис
08.04.2025
Добрый день. Хочу задать вопрос вашим экспертам, касательно ускорителя Huawei Atlas 300i Duo. Если я правильно понимаю, это же не совсем видеокарта? Однако 96GB памяти меня подкупают.
Если бы этот NPU участвовал в вашем топе, то какое место он бы занял?
Serverflow
Если говорить про инференс - то думаем она займет место между A100 и V100 :)
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.