Nvidia представила NVFP4 — новый формат квантования для вывода ИИ

25.06.2025

~ 5 мин

786

Сложный

Новости

Введение

Компания Nvidia представила новейший формат квантования NVFP4, поддерживаемый тензорными ядрами ИИ-ускорителей Blackwell и предназначенный для инференса передовых моделей искусственного интеллекта. Как заявляет Nvidia, новейший формат позволит разработчикам максимально масштабировать ИИ-модели, сохраняя высокую точность при генерации ответов и обеспечивая минимизацию ошибок при снижении нагрузки на память и упрощении вычислительных операций.

Что такое NVFP4?

NVFP4 — это новейший 4-битный формат вычислений с плавающей запятой, разработанный Nvidia, основанный на концепции низкобитных микро-форматов. NVFP4 во многом схож с традиционными 4-битными форматами, вследствие чего он также имеет меет 1 бит знака, 2 бита экспоненты и 1 бит мантиссы. Однако главным отличительным преимуществом NVFP4 является его значительно более высокая точность в широком динамическом диапазоне значений тензора и минимальная вероятность ошибок. Высокая точность обеспечивается двумя ключевыми нововведениями:

Высокоточное кодирование диапазона значений бита.
Двухуровневая система масштабирования микроблоков.

Особенность двухуровневой системы заключается в использовании масштабирующего фактора E4M3 к каждому 16-значному микроблоку, компактного подмножества большего тензора и скаляра второго уровня FP32, который применяется к каждому тензору.

Двухуровневая масштабирующая структура NVFP4. Источник: Nvidia.

Помимо этого, NVFP4 также поддерживает кодировку блоков с точностью E4M3 FP8, который допускает масштабирование значений без дробной точности. Благодаря этому, кодирование тензоров в степени двойки происходит с большей точностью, что повышает релевантность ответов искусственного интеллекта.

Сравнение точности квантования в разных типах масштабирования

Сравнение точности квантования с выделением масштабирования в степени двойки и дробного масштабирования. Источник: Nvidia.

Однако, у такой схемы масштабирования есть недостаток — уменьшенный диапазон значений масштаба тензора. Nvidia решила компенсировать это использованием масштабирующего фактора второго уровня с помощью формата вычислений FP32. Это корректирует уменьшение диапазона тензора так, чтобы кодирование микроблоков происходило с использованием фактора E4M3, что минимизирует ошибки квантования.

Сравнение матриц ошибок квантования E8M0 и E4M3

Сравнение ошибки квантования при использовании факторов E8M0 и E4M3 в матрице. Источник: Nvidia.

Факторы E8M0 и E4M3 имеют ряд принципиальных отличий:

E8M0 — Привязывает масштабный коэффициент к ближайшему значению 2 в какой-либо степени, что может привести к большой ошибке квантования для максимума блока (amax) и часто может привести к большим общим ошибкам квантования для блоков. E8M0 является более простым фактором, снижающим сложность проведения вычислений, что может быть полезно для активаций и весов, которые менее чувствительны к точности.
E4M3 — Находит один масштабный коэффициент, который делает ошибки блока максимально малыми, повышая точность для блока (amax). Несмотря на то, что некоторые значения могут быть менее точными, блок в целом сохраняет более высокую точность. Использование E4M3 увеличивает сложность вычислений, однако в тензорных ядрах пятого поколения GPU Nvidia Blackwell NVFP4 реализуется нативно, в вычисления FP4 выполняются автоматически, что нивелирует недостатки E4M3.

Еще одним ключевым компонентом NVFP4 является блочное представление значений блоков с плавающей точкой, где микроблоки имеют общий коэффициент масштабирования. Уменьшение размера группы с 32 до 16 значений на блок, NVFP4 обеспечивает более мелкозернистое масштабирование, чем его аналог в лице MXFP4. Таким образом NVFP4 обеспечивает более плоную группировку значений, что решает главную проблему тензорных значений в ИИ-моделях, которые смешиваются с большими и малыми значениями, приводя к ошибкам квантования.

Сравнение форматов вычислений NVFP4 и MXFP4 в масштабировании микроблоков. Источник: Nvidia.

За счет того, что NVFP4 обеспечивает снижение нагрузки на память и упрощение вычислительных операций, новый формат вычислений также улучшает пропускную способность выходного токена, снижает задержку в выводе ИИ и увеличивает уровень внимания развернутой ИИ-модели. Это наглядно продемонстрировано в инференсе большой языковой модели DeepSeek-R1-0528 в режиме NVFP4, эффективность которой была протестирована в 6 бенчмарках, свидетельствуя о минимальной разнице в точности между квантованными версиями модели в режимах FP8 и NVFP4.

Результаты тестов DeepSeek-R1-0528 в режимах квантирования FP8 и NVFP4

Результаты двух версий моделей DeepSeek-R1-0528 в шести тестах, квантованных с помощью режимов FP8 и NVFP4. Источник: Nvidia.

Анализ демонстрирует снижение точности NVFP4 лишь на 1% в ключевых задачах. В случае с математическим тестом AIME 2024 точность NVFP4 даже на 2% выше, чем FP8. При этом, благодаря 4-битному значению данных объем памяти квантованной модели в режиме NVFP4 снижается в 1,8 раз в сравнении с FP8, что в масштабах стоечной системы NVIDIA GB300 NVL72 на 36 чипов race Blackwell Ultra Superchips обеспечивает прирост бюджета памяти HBM на 40 ТБ. Также стоит отметить, что сниженная точность формата вычислений NVFP4 не только сокращает объем памяти ИИ-модели и ускоряет ее вывод, но и увеличивает показатель энергоэффективности системы, поскольку перемещение данных будет требовать меньше энергии. А в купе с использованием жидкостного охлаждения и поддержке FP4 в архитектуре Blackwell Tensor Core, система на базе Blackwell или Blackwell Ultra обеспечивает существенный прирост энергоэффективности до 25x и 50x соответственно.

NVFP4 обеспечивает до 50-кратную энергоэффективность на токен для Blackwell Ultra по сравнению с Hopper. Источник: Nvidia.

Формат квантизации NVFP4 уже доступен на платформах Nvidia TensorRT Model Optimizer и LLM Compressor. После квантования моделей в формате NVFP4, их можно запустить через Unified Hugging Face Checkpoint и развернуть на Nvidia TensorRT-LLM или vLLM. Также Nvidia заявляет, что в скором времени формата NVFP4 также будет добавлена в фреймворк SGLang, а Hugging Face уже начинает внедрять предварительно квантизированные модели в формате NVFP4, включая DeepSeek-R1-0528 , Llama* 3 и FLUX.1-dev.

Выводы

Компания Nvidia вновь продемонстрировала свое лидерство в области выпуска решений для обучения и инференса искусственного интеллекта, предоставив разработчикам совершенно новый формат квантования с пониженной точностью, экономящий память ИИ-модели и минимизирующий вероятность появления ошибок, лишь незначительно снижающий точность ответов искусственного интеллекта. Это также показывает, что тренд на локальный инференс ИИ-моделей не только не снижается, но и активно увеличивается, поскольку релиз NVFP4 говорит о большой потребности разработчиков и пользователей в еще более совершенных форматах квантования передовых нейросетей.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow

Nvidia представила NVFP4 — новый формат квантования для вывода ИИ

Введение

Что такое NVFP4?

Выводы

Комментарии 0