Обзор видеокарты NVIDIA A100 40GB – топ вчерашнего дня

18.06.2026

~ 14 мин

Простой

Статьи

Введение

Ещё буквально вчера NVIDIA A100 находилась на острие технического прогресса. Её возжелал буквально каждый поклонник мощного железа. И немудрено, “мужчина в кожаной куртке” активно рассказывал о прорывной архитектуре: тензорные ядра 3-го поколения, новые форматы TF32 и FP64 Tensor Core, а также поддержка BF16, INT8 и INT4.

dzhensen-khuang-prezentuet-arkhitekturu-ampere

Jensen Huang cooking. Дженсен Хуанг достаёт из духовки DGX A100, анонсируя новую архитектуру Ampere на GTC 2020 Keynote прямо из собственной кухни, которая благодаря коронавирусу прошла в онлайн формате. Источник: Youtube.

Новые технологии

MIG

На презентации особое внимание уделили функции Multi-Instance GPU (MIG), позволяющей “разрезать” одну A100 на семь изолированных виртуальных GPU для одновременной работы в разных задачах. Каждый экземпляр в версии 40 ГБ получает до 5 ГБ памяти, а в версии 80 ГБ – до 10 ГБ. MIG работает с Kubernetes, Docker-контейнерами и гипервизорами, что удобно для многопользовательских инфраструктур.

NVLink

Также появился NVLink 3-го поколения и NVSwitch. Новое поколение межсоединений удвоило пропускную способность GPU-to-GPU до 600 ГБ/с, позволяя объединять до 8 ускорителей в единое адресное пространство памяти.

Новые форматы

A100 принесла два новых формата вычислений. TF32 как хитрый компромисс: 19-битный формат с диапазоном FP32 и точностью FP16, который ускоряет обучение нейросетей до 8x и включается автоматически, не требуя изменений в коде.

Наглядная схема работы формата TF32. Источник: NVIDIA.

FP64 Tensor Core же впервые добавил поддержку двойной точности прямо на тензорных ядрах, удвоив производительность HPC-задач до 19.5 TFLOPS – это позволило сделать A100 универсальным ускорителем как для ИИ, так и для научных симуляций.

Наглядная схема работы формата FP64 Tensor Core. Источник: NVIDIA.

Структурная разреженность

И, пожалуй, самая главная инновация – A100 первой внедрила аппаратную поддержку структурной разреженности. Давайте чуть подробнее разберёмся в устройстве этой технологии.

Истоки проблемы: зачем нужны нули?

Современные нейросети содержат миллиарды весов, но значительная часть из них избыточна: после обучения многие веса стремятся к нулю и практически не влияют на качество модели. Обычный GPU всё равно перемножает их, тратя циклы впустую. Разреженность – это способ легализовать пропуск этих операций.

NVIDIA реализовала конкретный жёсткий шаблон: в каждом блоке из 4 элементов матрицы ровно 2 должны быть нулями. Это и есть структурность – нули располагаются не хаотично, а по предсказуемому паттерну.

Наглядная схема работы структурной разрежённости: из каждых 4 весов нейросети 2 обнуляются, а оставшиеся сжимаются в компактный формат. GPU хранит только ненулевые значения и небольшую “карту” их позиций – и обрабатывает вдвое меньше данных без потери точности результата. Источник: NVIDIA.

Конечно на практике всё далеко не так сладко. Для задач с привлечением того же vLLM или SGLang структурная разреженность даёт эффект только если модель специально обучена с 2:4 sparsity. Большинство публичных весов вроде Llama, Qwen и Mistral – плотные (dense), поэтому указанные в спецификации A100 с пометкой «sparse» TFLOPS в реальном инференсе LLM не достигаются. Для таких задач более практичным ускорением остаются квантование (FP8, INT8) и непрерывный батчинг (continuous batching).

Оговорив архитектурные новшества, давайте перейдем к сухим цифрам характеристик.

Характеристики NVIDIA A100

NVIDIA A100 построена на архитектуре Ampere и изготовлена по 7-нанометровому техпроцессу TSMC. Чип GA100 содержит 54 миллиарда транзисторов на площади 826 мм² – на момент выхода крупнейший процессор в мире. Как и AMD с линейкой CDNA, NVIDIA с A100 окончательно разграничила игровое и вычислительное направления: чип GA100 никогда не появлялся в потребительских видеокартах и проектировался исключительно для дата-центров.

Вычислительное ядро A100 состоит из 108 потоковых мультипроцессоров (SM), каждый из которых содержит 64 CUDA-ядра и 4 тензорных ядра третьего поколения. Итого: 6912 CUDA-ядер и 432 тензорных ядра. Именно тензорные ядра являются главным вычислительным инструментом A100: в отличие от универсальных CUDA-ядер, они специализированы на матричных умножениях (GEMM) и поддерживают широкий спектр форматов: FP64, TF32, BF16, FP16, INT8 и INT4.

Заявленная производительность A100 в разных режимах точности выглядит так: 9.7 TFLOPS в FP64, 19.5 TFLOPS в FP64 Tensor Core и 19.5 TFLOPS в FP32. При переходе к задачам машинного обучения цифры резко растут: 156 TFLOPS в TF32 и 312 TFLOPS в BF16/FP16 на тензорных ядрах. При активации структурной разреженности, о которой мы упоминали выше, каждый из этих показателей удваивается – до 312 и 624 TFLOPS соответственно. В режиме INT8, актуальном для инференса, A100 выдаёт до 1248 TOPS с разреженностью.

NVIDIA A100 – характеристики

Основные характеристики

Запуск	Q4 2020
Микроархитектура	Ampere
GPU имя	GA100
Техпроцесс	7 nm (TSMC)
Размер кристалла GPU	826 mm²
Количество транзисторов (млн.)	54 200

Вычислительные параметры

Потоковые процессоры (SP)	3840
Базовая частота	1275 МГц
Максимальная частота	1410 МГц
Cuda ядра	6912
TMUs	432
SM	108
Tensor Cores	432

Кэш и память

L1 Кэш	192 KB на SM
L2 Кэш	40 MB
Тип памяти	HBM2e
Объем памяти	40 GB
Шина памяти	5120 bits
Частота памяти (эффективная)	1215 МГц (2430 МГц)
Пропускная способность	1555 GB/s

Питание и интерфейс

TDP	250 W
Интерфейс	PCIe 4.0 x16

Память A100 – это её выдающееся качество. Версия 40 ГБ оснащена пятью стеками HBM2e с совокупным объёмом 40 ГБ и невероятной пропускной способностью 1555 ГБ/с по чудовищно широкой 5120-битной шине.

Однако давайте отринем сухие цифры спецификаций и посмотрим на видеокарту в реальных задачах.

Тест NVIDIA A100 в популярных LLM на распространенных движках

Здесь NVIDIA уже привычно блистает своей универсальностью. В отличие от карт “красных” конкурентов, A100 без проблем запрягается в задачу любой сложности без костылей и танцев с бубном: от простейшей Ollama до тонко настроенного SGLang.

При наличии желания вы можете работать даже на Windows, просто поставив необходимый драйвер с сайта NVIDIA. AMD такое стало подвластно лишь недавно, в нашем видеоролике и обзоре на AMD Radeon AI PRO R9700 мы подробно осветили это достижение красной компании.

Тест NVIDIA A100 в LLM

Сводная таблица по моделям, форматам квантизации, скорости генерации, времени до первого токена, длине контекста и примечаниям по качеству ответов.

llama.cpp

Модель	Форматы квантизации	Скорость (токенов в сек.)	До первого токена	Длинна контекста (в токенах)	Примечания
GLM-4.7-flash 30B	Q4_K_M	75.01	0.32 сек.	8192	Невероятно сообразительная модель. Ведёт очень осмысленный диалог, не путается и выдаёт очень толковые ответы.
Gemma 4 E4B-it	Q4_K_M	115.36	0.3 сек.	8192	Компактная моделька от Google, смышлёная и быстрая.
Qwen 3.6 35B-A3B	Q4_K_M	129.04	0.6 сек.	8192	Свежая замена 3.5 от китайцев, сообразительная и грамотная.
gpt-oss-20b	MXFP4	173.52	0.13 сек.	8192	По прежнему одна из лучших нейросетевых моделей, выдаёт подробные и быстрые ответы.
Ministral 3 14B-Instruct	Q4_K_M	80.49	0.11 сек.	8192	Дает чрезвычайно развернутые и подробные ответы
Gemma 4 31B-it	Q4_K_M	32.7	0.5 сек.	8192	Полновесная (dense) модель в семействе Gemma 4. Лучше компактной, но далеко не в разы.

vLLM

Модель	Форматы квантизации	Скорость (токенов в сек.)	До первого токена	Длинна контекста (в токенах)	Примечания
Mistral-7B-Instruct-v0.3	BF16	81.07	0.12 сек.	8192	Удивительно медленная модель для своих габаритов. Но предложения строит грамотно, ошибок не допускает.
Qwen 3.5 35B-A3B	GPTQ	132.64	0.9 сек.	8192	Иногда проскальзывают китайские иероглифы.
gpt-oss-20b	MXFP4	195.03	0.05 сек.	8192	Становится ещё шустрее и продуктивнее чем на llama.cpp
Gemma 4 E4B-it	BF16	93.57	0.1 сек.	8192	Выписывает подробные и осмысленные ответы.
Ministral 3 14B-Reasoning	BF16	46.49	0.21 сек.	8192	Даёт подробные ответы, но плохо ладит с русским языком

SGLang

Модель	Форматы квантизации	Скорость (токенов в сек.)	До первого токена	Длинна контекста (в токенах)	Примечания
Ministral 3 14B-Reasoning	FP8	65.87	0.2 сек.	8192	Даёт подробные ответы, но плохо ладит с русским языком. На SGLang модель съедает заметно больше видеопамяти, примерно на 10-15%
Phi 4 mini instruct	BF16	110.08	0.27 сек.	8192	Шустрая и компактная модель от Microsoft на 3.8 млрд параметров
Qwen 3 14B	BF16	43.96	0.18 сек.	8192	Хорошая модель, но без квантования тяжеловата для одной A100

Сразу спешим оговорить что целью тестов не являлось сравнение движков для инференса, для этого у нас имеется отдельный материал.

Как видно из результатов, A100 по-прежнему является мощным решением для инференса. Пускай это теперь и не “святой грааль” вычислительной производительности каковой она являлась ранее.

Из любопытных наблюдений: Ministral 3 14B-Reasoning на SGLang употребляет куда больше памяти чем на vLLM. Именно по этой причине втиснуть её в формате BF16 на A100 не вышло, пришлось довольствоваться FP8. Однако это не единственная проблема с которой довелось столкнуться.

Температуры и охлаждение NVIDIA A100

Здесь и рисуются препятствия. NVIDIA A100 не имеет индивидуального активного охлаждения, так как предназначена для работы в серверных стойках с использованием общего обдува. Поэтому для использования в десктопной системе необходимо раздобыть отдельное охлаждение.

А NVIDIA A100, будем честны, редкая и дорогая видеокарта. Нельзя просто зайти в оранжевый трехбуквенный магазин и выбрать подходящее охлаждение для NVIDIA A100.

Очумелые ручки

Тут мы и заходим на территорию кружка “сделай сам”. Сначала проектируем 3д модельку переходника.

3D модель переходника для NVIDIA A100 под 140мм вентилятор

Да, под 140-мм вентилятор. Да, давление воздушного потока от турбины было бы больше, и охлаждение соответственно лучше. Но в нашем случае раздобыть хороший 140-мм вентилятор оказалось разительно проще чем мало-мальски приличную турбину.

Распечатав удачный экземпляр (и несколько неудачных) на 3D принтере – крепим его к видеокарте, профессионально и надёжно закрепив вентилятор на строительные стяжки.

Фото прикреплённого охлаждения для NVIDIA A100

Несмотря на внешнюю несуразность такого охлаждения – оно оказалось весьма эффективным. Температура в простое застывает на 50°C. В реальной нагрузке средняя температура устремляется к 76 градусам цельсия, а хотспот в пике прогревается до 80°C.

График температур NVIDIA A100 с самодельным охлаждением

Конечно это не самый выдающийся результат, но как решение собранное из подручных материалов и стоимостью всего в косарь рублей – вполне сгодится.

Итак, ознакомившись с характеристиками и особенностями GPU, её реальной производительностью и попутными нюансами – давайте перенесёмся к заключению.

Заключение

NVIDIA A100 и на сегодняшний день впечатляет своей мощью. Хоть уже не конкурирует с H100/H200/B200 в задачах крупных LLM, но на вторичном рынке A100 остаётся сильной картой для CUDA-инференса, 7B–35B моделей, MoE-моделей с малым числом активных параметров, тестирования vLLM/SGLang/llama.cpp, HPC-задач с FP64 и рабочих сценариев, где важна стабильность CUDA-экосистемы.

Автор:

Serverflow