Команда Red Hat AI выпустила обновление своей библиотеки с открытым исходным кодом для оптимизации ИИ LLM Compressor 0.9.0, в котором разработчики существенно расширили возможности квантования и повысили производительность сжатия больших языковых моделей. Обновление затрагивает ключевые узлы инференса — внимание и KV-кэш, добавляет новые алгоритмы квантования и упрощает работу с моделями нестандартных форматов.
Подробнее о LLM Compressor 0.9.0
Центральным изменением стал глубокий рефакторинг квантования внимания и KV-кэша. Теперь квантование Q, K и V рассматривается как универсальные точки применения калибровки, а не как жестко зафиксированные реализации. Это позволило применять произвольные схемы квантования, включая FP8, INT8 и FP4, а также использовать ротацию внимания в стиле SpinQuant для повышения точности. Квантованные модели напрямую интегрируются с Hugging Face через Compressed Tensors, хотя поддержка конкретных схем в vLLM по-прежнему зависит от его версии.
Важным дополнением стал режим model_free_ptq, позволяющий квантовать модели напрямую из файлов safetensors без наличия Python-класса модели. Это особенно актуально для очень больших или экспериментальных моделей и сценариев, где классический oneshot-подход не работает. Режим поддерживает квантование без датасета, включая FP8 и NVFP4A16.
В релиз также вошел AutoRoundModifier — реализация алгоритма Intel AutoRound, ориентированного на высокоточную посттренировочную квантизацию с малым числом бит. Квантованные таким способом модели совместимы с vLLM и используют обучаемые параметры округления и диапазонов, оптимизируемые послойно. Экспериментально добавлена поддержка MXFP4, включая квантование весов и сжатие коэффициентов масштабирования. Для этого введены новые параметры управления типами данных шкал и нулевых точек, что упрощает работу со смешанными и расширенными схемами квантования.
Отдельное внимание уделено производительности. Появилась пакетная калибровка, которая за счет более эффективного использования памяти может ускорять AWQ до трех раз и давать заметный прирост скорости для других алгоритмов. Дополнительно улучшены AWQ и SmoothQuant, расширена поддержка схем квантования и исправлены проблемы с MoE-архитектурами.
Выводы
LLM Compressor 0.9.0 делает шаг от точечных улучшений к более универсальной и масштабируемой системе квантования. Переработка внимания и KV-кэша, model_free_ptq, AutoRound и экспериментальный MXFP4 заметно расширяют спектр поддерживаемых сценариев — от нестандартных чекпойнтов до крупных MoE-моделей. В сочетании с ускоренной калибровкой релиз формирует прочную основу для более эффективного и гибкого развертывания LLM в продакшене.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.