Top.Mail.Ru
Red Hat AI представила LLM Compressor 0.9.0: квантование внимания, MXFP4 и ускоренная калибровка | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Red Hat AI представила LLM Compressor 0.9.0: квантование внимания, MXFP4 и ускоренная калибровка

~ 2 мин
117
Простой
Новости
Red Hat AI представила LLM Compressor 0.9.0: квантование внимания, MXFP4 и ускоренная калибровка

Введение

Команда Red Hat AI выпустила обновление своей библиотеки с открытым исходным кодом для оптимизации ИИ LLM Compressor 0.9.0, в котором разработчики существенно расширили возможности квантования и повысили производительность сжатия больших языковых моделей. Обновление затрагивает ключевые узлы инференса — внимание и KV-кэш, добавляет новые алгоритмы квантования и упрощает работу с моделями нестандартных форматов.

Подробнее о LLM Compressor 0.9.0

Центральным изменением стал глубокий рефакторинг квантования внимания и KV-кэша. Теперь квантование Q, K и V рассматривается как универсальные точки применения калибровки, а не как жестко зафиксированные реализации. Это позволило применять произвольные схемы квантования, включая FP8, INT8 и FP4, а также использовать ротацию внимания в стиле SpinQuant для повышения точности. Квантованные модели напрямую интегрируются с Hugging Face через Compressed Tensors, хотя поддержка конкретных схем в vLLM по-прежнему зависит от его версии.

Важным дополнением стал режим model_free_ptq, позволяющий квантовать модели напрямую из файлов safetensors без наличия Python-класса модели. Это особенно актуально для очень больших или экспериментальных моделей и сценариев, где классический oneshot-подход не работает. Режим поддерживает квантование без датасета, включая FP8 и NVFP4A16.

В релиз также вошел AutoRoundModifier — реализация алгоритма Intel AutoRound, ориентированного на высокоточную посттренировочную квантизацию с малым числом бит. Квантованные таким способом модели совместимы с vLLM и используют обучаемые параметры округления и диапазонов, оптимизируемые послойно. Экспериментально добавлена поддержка MXFP4, включая квантование весов и сжатие коэффициентов масштабирования. Для этого введены новые параметры управления типами данных шкал и нулевых точек, что упрощает работу со смешанными и расширенными схемами квантования. 

Отдельное внимание уделено производительности. Появилась пакетная калибровка, которая за счет более эффективного использования памяти может ускорять AWQ до трех раз и давать заметный прирост скорости для других алгоритмов. Дополнительно улучшены AWQ и SmoothQuant, расширена поддержка схем квантования и исправлены проблемы с MoE-архитектурами.

Выводы

LLM Compressor 0.9.0 делает шаг от точечных улучшений к более универсальной и масштабируемой системе квантования. Переработка внимания и KV-кэша, model_free_ptq, AutoRound и экспериментальный MXFP4 заметно расширяют спектр поддерживаемых сценариев — от нестандартных чекпойнтов до крупных MoE-моделей. В сочетании с ускоренной калибровкой релиз формирует прочную основу для более эффективного и гибкого развертывания LLM в продакшене.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)