AWQ: активационно-осознанное квантование, которое идёт дальше GPTQ

24.10.2025

~ 18 мин

841

Сложный

Статьи

Вступление

Когда вы впервые узнали о GPTQ, всё стало просто и ясно: языковую модель можно сжать, ускорить, оптимизировать, сократить требования к памяти и аппаратным ресурсам. Идея пост тренировочного квантования стала понятной и рабочей. В мире быстрых движков вроде VLLM или SGLang это решение быстро заняло своё место. Мы научились запускать LLM на обычных серверах, работать с большими наборами, минимизировать тормоза интерпретатора.

Но вот спустя некоторое время вы замечаете новое слово AWQ. Оно появляется в описаниях моделей, документации, выпусках AutoAWQ, настройках движков. На первый взгляд, снова квантование, опять оптимизация нейросетей. Но если присмотреться, становится понятно: это не просто формат, а шаг вперёд. Интеллектуальная оптимизация LLM, новый стандарт квантования моделей и сохранения смысла. AWQ отвечает на вопросы, где GPTQ не даёт универсального решения, и открывает дверь к балансированному инференсу LLM с упором на осознанное квантование активаций, индивидуальный подход и сохранение качества даже на сложных сценариях.

Напомним, что даёт GPTQ и где его предел

GPTQ является первым компромиссом инженера. Простое квантование после обучения с помощью несложных скриптов и калибровочного набора позволяет квантизировать веса модели, снижать объём занимаемой видеопамяти и ускорять инференс LLM. Движки типа vLLM быстро приняли этот формат. Теперь запуск Llama* или Mistral не требует дорогих GPU, а скорость реально выше по сравнению с FP16.

Инженеры оценили удобство: не нужно переобучать сеть, можно брать готовые веса и переводить их в int4, получив компактную модель с почти тем же качеством. Деградация точности минимальна, особенно для генеративных задач.

Визуализация блочного квантования GPTQ.

Но с ростом сложности запросов и появлением instruction-моделей пределы GPTQ становятся заметнее. Инструкция иногда "размывается", в мультимодальных задачах теряются нюансы, а в диалогах появляются нехарактерные сдвиги. Основная причина заключается в том, что GPTQ не оценивает важность весов, не различает, какие параметры определяют смысл, а какие менее значимы.

Переход от универсального округления к индивидуальному анализу каналов становится реальной потребностью. Именно здесь возникает необходимость нового алгоритма.

На этом месте появляется AWQ. Этот подход учитывает не только веса модели, но и активации, то есть реальную значимость каждой линии активации в инференсе LLM.

Что такое AWQ простыми словами

AWQ, Activation-Aware Weight Quantization, представляет собой активационно-осознанное квантование весов. Суть проста: не все каналы нейросети одинаково важны для ответа. Некоторые несут основную информацию, и их активации высоки, другие задействуются слабо. GPTQ округляет всё одинаково, а AWQ анализирует сигналы и оптимизирует сжатие так, чтобы важные каналы были максимально защищены.

Представьте оркестр. Важные инструменты, ведущие тему, не должны быть заглушены при записи. AWQ работает как опытный звукорежиссёр, выделяет яркие голоса, даёт им нужную громкость, а фоновую партию сжимает и приглушает. В этом заключается осознанное квантование активаций.

График аппаратного ускорения на RTX 4090, отображающий узкие места при генерации текста

Анализ узких мест генерации текста в LLM при аппаратном ускорении на RTX 4090: стадия генерации существенно медленнее обработки контекста (график a), ограничена пропускной способностью памяти (график b), а загрузка весов модели требует значительно больше памяти, чем хранение активаций (график c). Квантование весов позволяет эффективно преодолеть эти ограничения. Источник: Cornell University.

В механике AWQ два ключевых приёма: масштабирование весов и частичная инверсия активаций. Модель анализирует, где проходят максимальные потоки данных, где важные активации, и вместо жёсткого сокращения разбрасывает биты так, чтобы минимизировать ошибку в критичных каналах.

В результате AWQ снижает ошибку округления там, где смысл действительно важен, и не экономит за счёт качества. Это переход к индивидуальному компромиссу в каждом фрагменте структуры нейросети.

Как работает AWQ под капотом

Технически AWQ похож на GPTQ тем, что это тоже квантование после обучения. Всё работает с исходной натренированной моделью и небольшим калибровочным набором.

Процесс начинается с анализа распределения активаций. Скрипт прогоняет множество примеров по каждому слою сети, чтобы определить, какие каналы реально задействуются чаще всего. Полученная статистика используется для масштабирования весов. Важные каналы усиливаются, незначимые ослабляются.

Затем применяется group-wise квантование. Вместо обработки всей матрицы весов одной формулой, AWQ разбивает веса на группы, каждая из которых получает свой scale-фактор. Локализованное квантование снижает глобальную ошибку и даёт больше гибкости при сжатии.

Наглядное сравнение подходов к квантованию

Сравнение подходов к квантованию весов в LLM: слева – стандартное округление и резкое падение качества, по центру – частичное сохранение весов без аппаратной эффективности, справа – активационно-осознанное масштабирование (AWQ), позволяющее добиться минимальной потери качества при полной аппаратной совместимости. Источник: Cornell University.

Важная деталь: AWQ сохраняет произведение веса и активации. Если веса усилились, активация ослабла. Итоговая амплитуда и смысл ответа остаются прежними, а цифровая ошибка округления резко падает.

При калибровке модель прогоняют на небольшом наборе данных, записывая статистику активаций для каждого слоя, чтобы определить, какие каналы наиболее влияют на результат. Затем веса этих каналов масштабируются перед 4‑битным квантованием, что позволяет сохранить их точность и минимизировать ошибку инференса.

Время калибровки напрямую зависит от вычислительной мощи вашей видеокарты, но обычно процесс завершается за часы и не требует огромных дата-сетов или GPU-ферм. Итог – компактная, но чувствительная к важной информации модель, способная выдавать грамотные ответы даже на instruction-запросах.

Где применяется AWQ и почему именно в VLLM и SGLang

AWQ становится логическим продолжением GPTQ для современных движков типа VLLM и SGLang. Если GPTQ ускоряет и делает запуск модели экономичным, то AWQ превращает процесс внедрения оптимизаций в осознанную инженерную работу, особенно для instruction-моделей и сложных диалоговых систем.

В VLLM начиная с версии 0.4 интеграция awq quantization стала стандартной. Всё, что нужно, это скачать awq-модель и добавить флаг --quantization=awq к запуску. Раньше для этого использовался AutoAWQ, но с версии vLLM 0.6.0 и выше рекомендуется использовать llm-compressor.

AWQ поддерживают десятки моделей на Hugging Face: Llama*-AWQ, Qwen-AWQ, Mistral-AWQ и другие. Для SGLang подход тоже актуален. AWQ позволяет деплоить модели с ускорением, стабильной генерацией и экономией VRAM вплоть до трех раз по сравнению с FP16, а кривые качества почти не уступают оригиналу.

В реальных сценариях AWQ демонстрирует стабильный прирост производительности. Генерация текста становится быстрее, качество не деградирует, масштабируемость архитектуры растёт. Для компаний, деплоящих LLM в продакшен, это важный шаг для работы с сложными интерфейсами и устойчивого отклика пользователей.

AWQ вписывается в экосистему движков абсолютно органично, аналогично тому, как GPTQ ранее стал основой движения в сторону доступного инференса языковых моделей.

Преимущества и ограничения AWQ

AWQ реально повышает эффективность LLM моделей, снижает ошибки при низкобитном квантовании и сохраняет смысл генерации. Важно учитывать и тонкости настройки.

Преимущества: более высокая точность в сравнении с классическим GPTQ при квантовании до int4, особенно на instruction и диалоговых моделях. Почти нет деградации смысла фраз. Даже мультимодальные и сложные генерации сохраняют структуру и логику. AWQ не требует дообучения, работает на готовых моделях, прост в интеграции и занимает несколько часов вместо недель инженерии. Поддержка отличная: AutoAWQ, VLLM, репозитории Hugging Face – все умеют работать с этим форматом.

Ограничения: требуется качественный репрезентативный калибровочный набор, без которого важные сигналы могут быть неверно оценены. Да набор может быть своим, но на его создание потребуются время и некоторые навыки. Scale-факторы требуют ручной или полуавтоматической настройки, иногда приходится пробовать разные варианты для лучшего баланса. Поддержка пока не во всех фреймворках и движках, но внедрение развивается быстро.

AWQ считается одной из самых эффективных схем 4-битного квантования для LLM. Это подтверждается количеством актуальных моделей AWQ на Hugging Face, результатами тестов в VLLM и стабильностью качества в AutoAWQ.

Выводы по AWQ: куда движется квантизация LLM

GPTQ дал инструмент для компромисса между скоростью и качеством. Можно ужать модель и не особо жертвовать генерацией. AWQ показал, что идти дальше возможно. Компромисс теперь интеллектуальный. Сжатие не для всех каналов модели одинаково, а осознанное и адаптивное для каждого случая.

Экосистема моделей развивается. FP8 идёт своим путём, смешанная прецизионность FP8+INT4, динамическое квантование и гибридные алгоритмы становятся всё более востребованы. Уже есть результаты, которые доказывают, что оптимизация нейросетей выходит на новый уровень понимания важности каждого параметра.

AWQ не просто алгоритм, а переход к инженерному искусству. Оптимизация стала интеллектуальной. Инференс LLM не противоречит размеру, а становится логически продуманной частью профессионального проекта. Здесь рождается зрелая инженерия языковых моделей, где компромисс точности и скорости достигается не магией, а настоящим техническим мастерством.

*Llama — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow