Обзор видеокарты NVIDIA A100 40GB – топ вчерашнего дня
Введение
Ещё буквально вчера NVIDIA A100 находилась на острие технического прогресса. Её возжелал буквально каждый поклонник мощного железа. И немудрено, “мужчина в кожаной куртке” активно рассказывал о прорывной архитектуре: тензорные ядра 3-го поколения, новые форматы TF32 и FP64 Tensor Core, а также поддержка BF16, INT8 и INT4.
Jensen Huang cooking. Дженсен Хуанг достаёт из духовки DGX A100, анонсируя новую архитектуру Ampere на GTC 2020 Keynote прямо из собственной кухни, которая благодаря коронавирусу прошла в онлайн формате. Источник: .
Новые технологии
MIG
На презентации особое внимание уделили функции Multi-Instance GPU (MIG), позволяющей “разрезать” одну A100 на семь изолированных виртуальных GPU для одновременной работы в разных задачах. Каждый экземпляр в версии 40 ГБ получает до 5 ГБ памяти, а в версии 80 ГБ – до 10 ГБ. MIG работает с Kubernetes, Docker-контейнерами и гипервизорами, что удобно для многопользовательских инфраструктур.
NVLink
Также появился NVLink 3-го поколения и NVSwitch. Новое поколение межсоединений удвоило пропускную способность GPU-to-GPU до 600 ГБ/с, позволяя объединять до 8 ускорителей в единое адресное пространство памяти.
Новые форматы
A100 принесла два новых формата вычислений. TF32 как хитрый компромисс: 19-битный формат с диапазоном FP32 и точностью FP16, который ускоряет обучение нейросетей до 8x и включается автоматически, не требуя изменений в коде.

Наглядная схема работы формата TF32. Источник: .
FP64 Tensor Core же впервые добавил поддержку двойной точности прямо на тензорных ядрах, удвоив производительность HPC-задач до 19.5 TFLOPS – это позволило сделать A100 универсальным ускорителем как для ИИ, так и для научных симуляций.
Наглядная схема работы формата FP64 Tensor Core. Источник: .
Структурная разреженность
И, пожалуй, самая главная инновация – A100 первой внедрила аппаратную поддержку структурной разреженности. Давайте чуть подробнее разберёмся в устройстве этой технологии.
Истоки проблемы: зачем нужны нули?
Современные нейросети содержат миллиарды весов, но значительная часть из них избыточна: после обучения многие веса стремятся к нулю и практически не влияют на качество модели. Обычный GPU всё равно перемножает их, тратя циклы впустую. Разреженность – это способ легализовать пропуск этих операций.
NVIDIA реализовала конкретный жёсткий шаблон: в каждом блоке из 4 элементов матрицы ровно 2 должны быть нулями. Это и есть структурность – нули располагаются не хаотично, а по предсказуемому паттерну.

Наглядная схема работы структурной разрежённости: из каждых 4 весов нейросети 2 обнуляются, а оставшиеся сжимаются в компактный формат. GPU хранит только ненулевые значения и небольшую “карту” их позиций – и обрабатывает вдвое меньше данных без потери точности результата. Источник: .
Конечно на практике всё далеко не так сладко. Для задач с привлечением того же vLLM или SGLang структурная разреженность даёт эффект только если модель специально обучена с 2:4 sparsity. Большинство публичных весов вроде Llama, Qwen и Mistral – плотные (dense), поэтому указанные в спецификации A100 с пометкой «sparse» TFLOPS в реальном инференсе LLM не достигаются. Для таких задач более практичным ускорением остаются квантование (FP8, INT8) и непрерывный батчинг (continuous batching).
Оговорив архитектурные новшества, давайте перейдем к сухим цифрам характеристик.
Характеристики NVIDIA A100
NVIDIA A100 построена на архитектуре Ampere и изготовлена по 7-нанометровому техпроцессу TSMC. Чип GA100 содержит 54 миллиарда транзисторов на площади 826 мм² – на момент выхода крупнейший процессор в мире. Как и AMD с линейкой CDNA, NVIDIA с A100 окончательно разграничила игровое и вычислительное направления: чип GA100 никогда не появлялся в потребительских видеокартах и проектировался исключительно для дата-центров.
Вычислительное ядро A100 состоит из 108 потоковых мультипроцессоров (SM), каждый из которых содержит 64 CUDA-ядра и 4 тензорных ядра третьего поколения. Итого: 6912 CUDA-ядер и 432 тензорных ядра. Именно тензорные ядра являются главным вычислительным инструментом A100: в отличие от универсальных CUDA-ядер, они специализированы на матричных умножениях (GEMM) и поддерживают широкий спектр форматов: FP64, TF32, BF16, FP16, INT8 и INT4.
Заявленная производительность A100 в разных режимах точности выглядит так: 9.7 TFLOPS в FP64, 19.5 TFLOPS в FP64 Tensor Core и 19.5 TFLOPS в FP32. При переходе к задачам машинного обучения цифры резко растут: 156 TFLOPS в TF32 и 312 TFLOPS в BF16/FP16 на тензорных ядрах. При активации структурной разреженности, о которой мы упоминали выше, каждый из этих показателей удваивается – до 312 и 624 TFLOPS соответственно. В режиме INT8, актуальном для инференса, A100 выдаёт до 1248 TOPS с разреженностью.
NVIDIA A100 – характеристики
Основные характеристики
| Запуск | Q4 2020 |
| Микроархитектура | Ampere |
| GPU имя | GA100 |
| Техпроцесс | 7 nm (TSMC) |
| Размер кристалла GPU | 826 mm² |
| Количество транзисторов (млн.) | 54 200 |
Вычислительные параметры
| Потоковые процессоры (SP) | 3840 |
| Базовая частота | 1275 МГц |
| Максимальная частота | 1410 МГц |
| Cuda ядра | 6912 |
| TMUs | 432 |
| SM | 108 |
| Tensor Cores | 432 |
Кэш и память
| L1 Кэш | 192 KB на SM |
| L2 Кэш | 40 MB |
| Тип памяти | HBM2e |
| Объем памяти | 40 GB |
| Шина памяти | 5120 bits |
| Частота памяти (эффективная) | 1215 МГц (2430 МГц) |
| Пропускная способность | 1555 GB/s |
Питание и интерфейс
| TDP | 250 W |
| Интерфейс | PCIe 4.0 x16 |
Память A100 – это её выдающееся качество. Версия 40 ГБ оснащена пятью стеками HBM2e с совокупным объёмом 40 ГБ и невероятной пропускной способностью 1555 ГБ/с по чудовищно широкой 5120-битной шине.
Однако давайте отринем сухие цифры спецификаций и посмотрим на видеокарту в реальных задачах.
Тест NVIDIA A100 в популярных LLM на распространенных движках
Здесь NVIDIA уже привычно блистает своей универсальностью. В отличие от карт “красных” конкурентов, A100 без проблем запрягается в задачу любой сложности без костылей и танцев с бубном: от простейшей Ollama до тонко настроенного SGLang.
При наличии желания вы можете работать даже на Windows, просто поставив необходимый драйвер с сайта NVIDIA. AMD такое стало подвластно лишь недавно, в нашем видеоролике и обзоре на AMD Radeon AI PRO R9700 мы подробно осветили это достижение красной компании.
Тест NVIDIA A100 в LLM
Сводная таблица по моделям, форматам квантизации, скорости генерации, времени до первого токена, длине контекста и примечаниям по качеству ответов.
llama.cpp
| Модель | Форматы квантизации | Скорость (токенов в сек.) | До первого токена | Длинна контекста (в токенах) | Примечания |
|---|---|---|---|---|---|
| GLM-4.7-flash 30B | Q4_K_M | 75.01 | 0.32 сек. | 8192 | Невероятно сообразительная модель. Ведёт очень осмысленный диалог, не путается и выдаёт очень толковые ответы. |
| Gemma 4 E4B-it | Q4_K_M | 115.36 | 0.3 сек. | 8192 | Компактная моделька от Google, смышлёная и быстрая. |
| Qwen 3.6 35B-A3B | Q4_K_M | 129.04 | 0.6 сек. | 8192 | Свежая замена 3.5 от китайцев, сообразительная и грамотная. |
| gpt-oss-20b | MXFP4 | 173.52 | 0.13 сек. | 8192 | По прежнему одна из лучших нейросетевых моделей, выдаёт подробные и быстрые ответы. |
| Ministral 3 14B-Instruct | Q4_K_M | 80.49 | 0.11 сек. | 8192 | Дает чрезвычайно развернутые и подробные ответы |
| Gemma 4 31B-it | Q4_K_M | 32.7 | 0.5 сек. | 8192 | Полновесная (dense) модель в семействе Gemma 4. Лучше компактной, но далеко не в разы. |
vLLM
| Модель | Форматы квантизации | Скорость (токенов в сек.) | До первого токена | Длинна контекста (в токенах) | Примечания |
|---|---|---|---|---|---|
| Mistral-7B-Instruct-v0.3 | BF16 | 81.07 | 0.12 сек. | 8192 | Удивительно медленная модель для своих габаритов. Но предложения строит грамотно, ошибок не допускает. |
| Qwen 3.5 35B-A3B | GPTQ | 132.64 | 0.9 сек. | 8192 | Иногда проскальзывают китайские иероглифы. |
| gpt-oss-20b | MXFP4 | 195.03 | 0.05 сек. | 8192 | Становится ещё шустрее и продуктивнее чем на llama.cpp |
| Gemma 4 E4B-it | BF16 | 93.57 | 0.1 сек. | 8192 | Выписывает подробные и осмысленные ответы. |
| Ministral 3 14B-Reasoning | BF16 | 46.49 | 0.21 сек. | 8192 | Даёт подробные ответы, но плохо ладит с русским языком |
SGLang
| Модель | Форматы квантизации | Скорость (токенов в сек.) | До первого токена | Длинна контекста (в токенах) | Примечания |
|---|---|---|---|---|---|
| Ministral 3 14B-Reasoning | FP8 | 65.87 | 0.2 сек. | 8192 | Даёт подробные ответы, но плохо ладит с русским языком. На SGLang модель съедает заметно больше видеопамяти, примерно на 10-15% |
| Phi 4 mini instruct | BF16 | 110.08 | 0.27 сек. | 8192 | Шустрая и компактная модель от Microsoft на 3.8 млрд параметров |
| Qwen 3 14B | BF16 | 43.96 | 0.18 сек. | 8192 | Хорошая модель, но без квантования тяжеловата для одной A100 |
Сразу спешим оговорить что целью тестов не являлось сравнение движков для инференса, для этого у нас имеется отдельный материал.
Как видно из результатов, A100 по-прежнему является мощным решением для инференса. Пускай это теперь и не “святой грааль” вычислительной производительности каковой она являлась ранее.
Из любопытных наблюдений: Ministral 3 14B-Reasoning на SGLang употребляет куда больше памяти чем на vLLM. Именно по этой причине втиснуть её в формате BF16 на A100 не вышло, пришлось довольствоваться FP8. Однако это не единственная проблема с которой довелось столкнуться.
Температуры и охлаждение NVIDIA A100
Здесь и рисуются препятствия. NVIDIA A100 не имеет индивидуального активного охлаждения, так как предназначена для работы в серверных стойках с использованием общего обдува. Поэтому для использования в десктопной системе необходимо раздобыть отдельное охлаждение.
А NVIDIA A100, будем честны, редкая и дорогая видеокарта. Нельзя просто зайти в оранжевый трехбуквенный магазин и выбрать подходящее охлаждение для NVIDIA A100.
Очумелые ручки
Тут мы и заходим на территорию кружка “сделай сам”. Сначала проектируем 3д модельку переходника.

Да, под 140-мм вентилятор. Да, давление воздушного потока от турбины было бы больше, и охлаждение соответственно лучше. Но в нашем случае раздобыть хороший 140-мм вентилятор оказалось разительно проще чем мало-мальски приличную турбину.
Распечатав удачный экземпляр (и несколько неудачных) на 3D принтере – крепим его к видеокарте, профессионально и надёжно закрепив вентилятор на строительные стяжки.

Несмотря на внешнюю несуразность такого охлаждения – оно оказалось весьма эффективным. Температура в простое застывает на 50°C. В реальной нагрузке средняя температура устремляется к 76 градусам цельсия, а хотспот в пике прогревается до 80°C.

Конечно это не самый выдающийся результат, но как решение собранное из подручных материалов и стоимостью всего в косарь рублей – вполне сгодится.
Итак, ознакомившись с характеристиками и особенностями GPU, её реальной производительностью и попутными нюансами – давайте перенесёмся к заключению.
Заключение
NVIDIA A100 и на сегодняшний день впечатляет своей мощью. Хоть уже не конкурирует с H100/H200/B200 в задачах крупных LLM, но на вторичном рынке A100 остаётся сильной картой для CUDA-инференса, 7B–35B моделей, MoE-моделей с малым числом активных параметров, тестирования vLLM/SGLang/llama.cpp, HPC-задач с FP64 и рабочих сценариев, где важна стабильность CUDA-экосистемы.
Комментарии 0
Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.