Top.Mail.Ru
Обзор видеокарты NVIDIA A100 40GB – топ вчерашнего дня | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Обзор видеокарты NVIDIA A100 40GB – топ вчерашнего дня

~ 14 мин
63
Простой
Статьи
Обзор видеокарты NVIDIA A100 40GB – топ вчерашнего дня

Введение

Ещё буквально вчера NVIDIA A100 находилась на острие технического прогресса. Её возжелал буквально каждый поклонник мощного железа. И немудрено, “мужчина в кожаной куртке” активно рассказывал о прорывной архитектуре: тензорные ядра 3-го поколения, новые форматы TF32 и FP64 Tensor Core, а также поддержка BF16, INT8 и INT4.

dzhensen-khuang-prezentuet-arkhitekturu-ampere
Jensen Huang cooking. Дженсен Хуанг достаёт из духовки DGX A100, анонсируя новую архитектуру Ampere на GTC 2020 Keynote прямо из собственной кухни, которая благодаря коронавирусу прошла в онлайн формате. Источник: Youtube.

Новые технологии

MIG
На презентации особое внимание уделили функции Multi-Instance GPU (MIG), позволяющей “разрезать” одну A100 на семь изолированных виртуальных GPU для одновременной работы в разных задачах. Каждый экземпляр в версии 40 ГБ получает до 5 ГБ памяти, а в версии 80 ГБ – до 10 ГБ. MIG работает с Kubernetes, Docker-контейнерами и гипервизорами, что удобно для многопользовательских инфраструктур.

NVLink
Также появился NVLink 3-го поколения и NVSwitch. Новое поколение межсоединений удвоило пропускную способность GPU-to-GPU до 600 ГБ/с, позволяя объединять до 8 ускорителей в единое адресное пространство памяти.

Новые форматы
A100 принесла два новых формата вычислений. TF32 как хитрый компромисс: 19-битный формат с диапазоном FP32 и точностью FP16, который ускоряет обучение нейросетей до 8x и включается автоматически, не требуя изменений в коде.

skhema-raboty-formata-tf32
Наглядная схема работы формата TF32. Источник: NVIDIA.

FP64 Tensor Core же впервые добавил поддержку двойной точности прямо на тензорных ядрах, удвоив производительность HPC-задач до 19.5 TFLOPS – это позволило сделать A100 универсальным ускорителем как для ИИ, так и для научных симуляций.

skhema-raboty-formata-fp64-tensor-core

Наглядная схема работы формата FP64 Tensor Core. Источник: NVIDIA.

Структурная разреженность
И, пожалуй, самая главная инновация – A100 первой внедрила аппаратную поддержку структурной разреженности. Давайте чуть подробнее разберёмся в устройстве этой технологии.

Истоки проблемы: зачем нужны нули?

Современные нейросети содержат миллиарды весов, но значительная часть из них избыточна: после обучения многие веса стремятся к нулю и практически не влияют на качество модели. Обычный GPU всё равно перемножает их, тратя циклы впустую. Разреженность – это способ легализовать пропуск этих операций.

NVIDIA реализовала конкретный жёсткий шаблон: в каждом блоке из 4 элементов матрицы ровно 2 должны быть нулями. Это и есть структурность – нули располагаются не хаотично, а по предсказуемому паттерну.

Схема работы структурной разрежённости
Наглядная схема работы структурной разрежённости: из каждых 4 весов нейросети 2 обнуляются, а оставшиеся сжимаются в компактный формат. GPU хранит только ненулевые значения и небольшую “карту” их позиций – и обрабатывает вдвое меньше данных без потери точности результата. Источник: NVIDIA.

Конечно на практике всё далеко не так сладко. Для задач с привлечением того же vLLM или SGLang структурная разреженность даёт эффект только если модель специально обучена с 2:4 sparsity. Большинство публичных весов вроде Llama, Qwen и Mistral – плотные (dense), поэтому указанные в спецификации A100 с пометкой «sparse» TFLOPS в реальном инференсе LLM не достигаются. Для таких задач более практичным ускорением остаются квантование (FP8, INT8) и непрерывный батчинг (continuous batching).

Оговорив архитектурные новшества, давайте перейдем к сухим цифрам характеристик.

Характеристики NVIDIA A100

NVIDIA A100 построена на архитектуре Ampere и изготовлена по 7-нанометровому техпроцессу TSMC. Чип GA100 содержит 54 миллиарда транзисторов на площади 826 мм² – на момент выхода крупнейший процессор в мире. Как и AMD с линейкой CDNA, NVIDIA с A100 окончательно разграничила игровое и вычислительное направления: чип GA100 никогда не появлялся в потребительских видеокартах и проектировался исключительно для дата-центров.
Вычислительное ядро A100 состоит из 108 потоковых мультипроцессоров (SM), каждый из которых содержит 64 CUDA-ядра и 4 тензорных ядра третьего поколения. Итого: 6912 CUDA-ядер и 432 тензорных ядра. Именно тензорные ядра являются главным вычислительным инструментом A100: в отличие от универсальных CUDA-ядер, они специализированы на матричных умножениях (GEMM) и поддерживают широкий спектр форматов: FP64, TF32, BF16, FP16, INT8 и INT4.

Заявленная производительность A100 в разных режимах точности выглядит так: 9.7 TFLOPS в FP64, 19.5 TFLOPS в FP64 Tensor Core и 19.5 TFLOPS в FP32. При переходе к задачам машинного обучения цифры резко растут: 156 TFLOPS в TF32 и 312 TFLOPS в BF16/FP16 на тензорных ядрах. При активации структурной разреженности, о которой мы упоминали выше, каждый из этих показателей удваивается – до 312 и 624 TFLOPS соответственно. В режиме INT8, актуальном для инференса, A100 выдаёт до 1248 TOPS с разреженностью.

NVIDIA A100 – характеристики

Основные характеристики
Запуск Q4 2020
Микроархитектура Ampere
GPU имя GA100
Техпроцесс 7 nm (TSMC)
Размер кристалла GPU 826 mm²
Количество транзисторов (млн.) 54 200
Вычислительные параметры
Потоковые процессоры (SP) 3840
Базовая частота 1275 МГц
Максимальная частота 1410 МГц
Cuda ядра 6912
TMUs 432
SM 108
Tensor Cores 432
Кэш и память
L1 Кэш 192 KB на SM
L2 Кэш 40 MB
Тип памяти HBM2e
Объем памяти 40 GB
Шина памяти 5120 bits
Частота памяти (эффективная) 1215 МГц (2430 МГц)
Пропускная способность 1555 GB/s
Питание и интерфейс
TDP 250 W
Интерфейс PCIe 4.0 x16

Память A100 – это её выдающееся качество. Версия 40 ГБ оснащена пятью стеками HBM2e с совокупным объёмом 40 ГБ и невероятной пропускной способностью 1555 ГБ/с по чудовищно широкой 5120-битной шине.

Однако давайте отринем сухие цифры спецификаций и посмотрим на видеокарту в реальных задачах.

Тест NVIDIA A100 в популярных LLM на распространенных движках

Здесь NVIDIA уже привычно блистает своей универсальностью. В отличие от карт “красных” конкурентов, A100 без проблем запрягается в задачу любой сложности без костылей и танцев с бубном: от простейшей Ollama до тонко настроенного SGLang. 

При наличии желания вы можете работать даже на Windows, просто поставив необходимый драйвер с сайта NVIDIA. AMD такое стало подвластно лишь недавно, в нашем видеоролике и обзоре на AMD Radeon AI PRO R9700 мы подробно осветили это достижение красной компании.

Тест NVIDIA A100 в LLM

Сводная таблица по моделям, форматам квантизации, скорости генерации, времени до первого токена, длине контекста и примечаниям по качеству ответов.
llama.cpp
Модель Форматы квантизации Скорость (токенов в сек.) До первого токена Длинна контекста (в токенах) Примечания
GLM-4.7-flash 30B Q4_K_M 75.01 0.32 сек. 8192 Невероятно сообразительная модель. Ведёт очень осмысленный диалог, не путается и выдаёт очень толковые ответы.
Gemma 4 E4B-it Q4_K_M 115.36 0.3 сек. 8192 Компактная моделька от Google, смышлёная и быстрая.
Qwen 3.6 35B-A3B Q4_K_M 129.04 0.6 сек. 8192 Свежая замена 3.5 от китайцев, сообразительная и грамотная.
gpt-oss-20b MXFP4 173.52 0.13 сек. 8192 По прежнему одна из лучших нейросетевых моделей, выдаёт подробные и быстрые ответы.
Ministral 3 14B-Instruct Q4_K_M 80.49 0.11 сек. 8192 Дает чрезвычайно развернутые и подробные ответы
Gemma 4 31B-it Q4_K_M 32.7 0.5 сек. 8192 Полновесная (dense) модель в семействе Gemma 4. Лучше компактной, но далеко не в разы.
vLLM
Модель Форматы квантизации Скорость (токенов в сек.) До первого токена Длинна контекста (в токенах) Примечания
Mistral-7B-Instruct-v0.3 BF16 81.07 0.12 сек. 8192 Удивительно медленная модель для своих габаритов. Но предложения строит грамотно, ошибок не допускает.
Qwen 3.5 35B-A3B GPTQ 132.64 0.9 сек. 8192 Иногда проскальзывают китайские иероглифы.
gpt-oss-20b MXFP4 195.03 0.05 сек. 8192 Становится ещё шустрее и продуктивнее чем на llama.cpp
Gemma 4 E4B-it BF16 93.57 0.1 сек. 8192 Выписывает подробные и осмысленные ответы.
Ministral 3 14B-Reasoning BF16 46.49 0.21 сек. 8192 Даёт подробные ответы, но плохо ладит с русским языком
SGLang
Модель Форматы квантизации Скорость (токенов в сек.) До первого токена Длинна контекста (в токенах) Примечания
Ministral 3 14B-Reasoning FP8 65.87 0.2 сек. 8192 Даёт подробные ответы, но плохо ладит с русским языком. На SGLang модель съедает заметно больше видеопамяти, примерно на 10-15%
Phi 4 mini instruct BF16 110.08 0.27 сек. 8192 Шустрая и компактная модель от Microsoft на 3.8 млрд параметров
Qwen 3 14B BF16 43.96 0.18 сек. 8192 Хорошая модель, но без квантования тяжеловата для одной A100
 
Сразу спешим оговорить что целью тестов не являлось сравнение движков для инференса, для этого у нас имеется отдельный материал. 

Как видно из результатов, A100 по-прежнему является мощным решением для инференса. Пускай это теперь и не “святой грааль” вычислительной производительности каковой она являлась ранее.

Из любопытных наблюдений: Ministral 3 14B-Reasoning на SGLang употребляет куда больше памяти чем на vLLM. Именно по этой причине втиснуть её в формате BF16 на A100 не вышло, пришлось довольствоваться FP8. Однако это не единственная проблема с которой довелось столкнуться.

Температуры и охлаждение NVIDIA A100

Здесь и рисуются препятствия. NVIDIA A100 не имеет индивидуального активного охлаждения, так как предназначена для работы в серверных стойках с использованием общего обдува. Поэтому для использования в десктопной системе необходимо раздобыть отдельное охлаждение.

А NVIDIA A100, будем честны, редкая и дорогая видеокарта. Нельзя просто зайти в оранжевый трехбуквенный магазин и выбрать подходящее охлаждение для NVIDIA A100.

Очумелые ручки

Тут мы и заходим на территорию кружка “сделай сам”. Сначала проектируем 3д модельку переходника.

3D модель переходника для NVIDIA A100 под 140мм вентилятор

Да, под 140-мм вентилятор. Да, давление воздушного потока от турбины было бы больше, и охлаждение соответственно лучше. Но в нашем случае раздобыть хороший 140-мм вентилятор оказалось разительно проще чем мало-мальски приличную турбину.

Распечатав удачный экземпляр (и несколько неудачных) на 3D принтере – крепим его к видеокарте, профессионально и надёжно закрепив вентилятор на строительные стяжки.

Фото прикреплённого охлаждения для NVIDIA A100

Несмотря на внешнюю несуразность такого охлаждения – оно оказалось весьма эффективным. Температура в простое застывает на 50°C. В реальной нагрузке средняя температура устремляется к 76 градусам цельсия, а хотспот в пике прогревается до 80°C.

График температур NVIDIA A100 с самодельным охлаждением

Конечно это не самый выдающийся результат, но как решение собранное из подручных материалов и стоимостью всего в косарь рублей – вполне сгодится.

Итак, ознакомившись с характеристиками и особенностями GPU, её реальной производительностью и попутными нюансами – давайте перенесёмся к заключению.

Заключение

NVIDIA A100 и на сегодняшний день впечатляет своей мощью. Хоть уже не конкурирует с H100/H200/B200 в задачах крупных LLM, но на вторичном рынке A100 остаётся сильной картой для CUDA-инференса, 7B–35B моделей, MoE-моделей с малым числом активных параметров, тестирования vLLM/SGLang/llama.cpp, HPC-задач с FP64 и рабочих сценариев, где важна стабильность CUDA-экосистемы.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)