Google представила TurboQuant: передовой алгоритм экстремального сжатия ИИ-моделей

27.03.2026

~ 2 мин

167

Простой

Новости

Введение

Компания Google представили передовую технологию TurboQuant (ICLR 2026) и два вспомогательных алгоритма QJL и PolarQuant (AISTATS 2026), которые обеспечивают экстремальное сжатие без потери точности, устраняя узкие места памяти и пропускной способности. Эти технологии имеют все шансы совершить настоящий прорыв в индустрии искусственного интеллекта, многократно сократив требования к объему памяти LLM и снизив влияние кризиса памяти на мировой рынок.

Подробнее о Google TurboQuant

TurboQuant комбинирует два принципиально разных подхода к сжатию, работая в два этапа. На первом этапе используется PolarQuant. Вместо того чтобы рассматривать вектор в стандартных декартовых координатах, метод переводит его в полярные координаты. В результате получаются две составляющие: радиус, отражающий масштаб или “надежность» данных”, и угол, кодирующий смысловое направление. Поскольку после произвольного поворота векторов угловая структура становится фиксированной и предсказуемой, отпадает необходимость в дорогостоящей нормализации, а память, которая раньше тратилась на хранение констант квантования для каждого блока, высвобождается. На этом этапе расходуется основная часть битового бюджета, чтобы передать грубую структуру исходного вектора с высокой точностью.

Производительность сжатия KV-кэша алгоритмом TurboQuant по сравнению с различными методами сжатия. Источник: Google.

Второй этап предназначен для устранения мелких ошибок, оставшихся после первого этапа. Здесь TurboQuant выделяет всего один дополнительный бит на элемент и применяет алгоритм QJL (Quantized Johnson‑Lindenstrauss). QJL опирается на классическое преобразование Джонсона — Линденштрауса, которое позволяет проецировать многомерные данные в пространство меньшей размерности с сохранением попарных расстояний. В реализации QJL каждое число сжимается до одного знакового бита, что создает сверхбыстрое и экономичное представление без дополнительных затрат на хранение констант. Благодаря специальной несмещенной оценке скалярного произведения QJL позволяет модели точно вычислять показатель внимания, балансируя между высокоточной обработкой запроса и агрессивно сжатыми данными. Эта двухступенчатая схема дает TurboQuant возможность достигать экстремальных степеней сжатия (до трех бит на элемент) без потери качества и без необходимости дообучения.

Производительность алгоритма TurboQuant при вычислении внимания в KV-кэше. Источник: Google.

В экспериментах с моделями Gemma и Mistral на бенчмарках LongBench, Needle In A Haystack и других TurboQuant показал стабильно высокую точность, сокращая память под кэш KV минимум в шесть раз. В тестах “иголка в стоге сена” алгоритм продемонстрировал идеальные результаты. При этом сжатие до трех бит достигается без дообучения, а на ускорителях H100 4‑битный TurboQuant ускоряет вычисление внимания до восьми раз по сравнению с 32‑битными ключами. В задачах многомерного векторного поиска метод превзошел современные подходы вроде PQ и RabbiQ, стабильно обеспечивая более высокий recall@1 без привязки к обучающим данным.

Выводы

TurboQuant, QJL и PolarQuant — это не просто очередной алгоритм для оптимизации ИИ, а прорывная технология, которая может окончательно поменять парадигму в сфере искусственного интеллекта, сделав LLM доступными для любого пользователя. Возможность сжимать кэш до трех бит без потери точности открывает путь к созданию более масштабных языковых моделей, поддерживающих сверхдлинные контекстные окна. Одновременно эти методы кардинально улучшают семантический поиск, позволяя строить векторные индексы миллиардного размера с минимальными затратами памяти и высокой скоростью.

Автор:

Serverflow