Red Hat AI представила LLM Compressor 0.9.0: квантование внимания, MXFP4 и ускоренная калибровка

21.01.2026

~ 2 мин

117

Простой

Новости

Введение

Команда Red Hat AI выпустила обновление своей библиотеки с открытым исходным кодом для оптимизации ИИ LLM Compressor 0.9.0, в котором разработчики существенно расширили возможности квантования и повысили производительность сжатия больших языковых моделей. Обновление затрагивает ключевые узлы инференса — внимание и KV-кэш, добавляет новые алгоритмы квантования и упрощает работу с моделями нестандартных форматов.

Подробнее о LLM Compressor 0.9.0

Центральным изменением стал глубокий рефакторинг квантования внимания и KV-кэша. Теперь квантование Q, K и V рассматривается как универсальные точки применения калибровки, а не как жестко зафиксированные реализации. Это позволило применять произвольные схемы квантования, включая FP8, INT8 и FP4, а также использовать ротацию внимания в стиле SpinQuant для повышения точности. Квантованные модели напрямую интегрируются с Hugging Face через Compressed Tensors, хотя поддержка конкретных схем в vLLM по-прежнему зависит от его версии.

Важным дополнением стал режим model_free_ptq, позволяющий квантовать модели напрямую из файлов safetensors без наличия Python-класса модели. Это особенно актуально для очень больших или экспериментальных моделей и сценариев, где классический oneshot-подход не работает. Режим поддерживает квантование без датасета, включая FP8 и NVFP4A16.

В релиз также вошел AutoRoundModifier — реализация алгоритма Intel AutoRound, ориентированного на высокоточную посттренировочную квантизацию с малым числом бит. Квантованные таким способом модели совместимы с vLLM и используют обучаемые параметры округления и диапазонов, оптимизируемые послойно. Экспериментально добавлена поддержка MXFP4, включая квантование весов и сжатие коэффициентов масштабирования. Для этого введены новые параметры управления типами данных шкал и нулевых точек, что упрощает работу со смешанными и расширенными схемами квантования.

Отдельное внимание уделено производительности. Появилась пакетная калибровка, которая за счет более эффективного использования памяти может ускорять AWQ до трех раз и давать заметный прирост скорости для других алгоритмов. Дополнительно улучшены AWQ и SmoothQuant, расширена поддержка схем квантования и исправлены проблемы с MoE-архитектурами.

Выводы

LLM Compressor 0.9.0 делает шаг от точечных улучшений к более универсальной и масштабируемой системе квантования. Переработка внимания и KV-кэша, model_free_ptq, AutoRound и экспериментальный MXFP4 заметно расширяют спектр поддерживаемых сценариев — от нестандартных чекпойнтов до крупных MoE-моделей. В сочетании с ускоренной калибровкой релиз формирует прочную основу для более эффективного и гибкого развертывания LLM в продакшене.

Автор:

Serverflow