Компания Google представили передовую технологию TurboQuant (ICLR 2026) и два вспомогательных алгоритма QJL и PolarQuant (AISTATS 2026), которые обеспечивают экстремальное сжатие без потери точности, устраняя узкие места памяти и пропускной способности. Эти технологии имеют все шансы совершить настоящий прорыв в индустрии искусственного интеллекта, многократно сократив требования к объему памяти LLM и снизив влияние кризиса памяти на мировой рынок.
Подробнее о Google TurboQuant
TurboQuant комбинирует два принципиально разных подхода к сжатию, работая в два этапа. На первом этапе используется PolarQuant. Вместо того чтобы рассматривать вектор в стандартных декартовых координатах, метод переводит его в полярные координаты. В результате получаются две составляющие: радиус, отражающий масштаб или “надежность» данных”, и угол, кодирующий смысловое направление. Поскольку после произвольного поворота векторов угловая структура становится фиксированной и предсказуемой, отпадает необходимость в дорогостоящей нормализации, а память, которая раньше тратилась на хранение констант квантования для каждого блока, высвобождается. На этом этапе расходуется основная часть битового бюджета, чтобы передать грубую структуру исходного вектора с высокой точностью.
Производительность сжатия KV-кэша алгоритмом TurboQuant по сравнению с различными методами сжатия. Источник: .
Второй этап предназначен для устранения мелких ошибок, оставшихся после первого этапа. Здесь TurboQuant выделяет всего один дополнительный бит на элемент и применяет алгоритм QJL (Quantized Johnson‑Lindenstrauss). QJL опирается на классическое преобразование Джонсона — Линденштрауса, которое позволяет проецировать многомерные данные в пространство меньшей размерности с сохранением попарных расстояний. В реализации QJL каждое число сжимается до одного знакового бита, что создает сверхбыстрое и экономичное представление без дополнительных затрат на хранение констант. Благодаря специальной несмещенной оценке скалярного произведения QJL позволяет модели точно вычислять показатель внимания, балансируя между высокоточной обработкой запроса и агрессивно сжатыми данными. Эта двухступенчатая схема дает TurboQuant возможность достигать экстремальных степеней сжатия (до трех бит на элемент) без потери качества и без необходимости дообучения.
Производительность алгоритма TurboQuant при вычислении внимания в KV-кэше. Источник: .
В экспериментах с моделями Gemma и Mistral на бенчмарках LongBench, Needle In A Haystack и других TurboQuant показал стабильно высокую точность, сокращая память под кэш KV минимум в шесть раз. В тестах “иголка в стоге сена” алгоритм продемонстрировал идеальные результаты. При этом сжатие до трех бит достигается без дообучения, а на ускорителях H100 4‑битный TurboQuant ускоряет вычисление внимания до восьми раз по сравнению с 32‑битными ключами. В задачах многомерного векторного поиска метод превзошел современные подходы вроде PQ и RabbiQ, стабильно обеспечивая более высокий recall@1 без привязки к обучающим данным.
Выводы
TurboQuant, QJL и PolarQuant — это не просто очередной алгоритм для оптимизации ИИ, а прорывная технология, которая может окончательно поменять парадигму в сфере искусственного интеллекта, сделав LLM доступными для любого пользователя. Возможность сжимать кэш до трех бит без потери точности открывает путь к созданию более масштабных языковых моделей, поддерживающих сверхдлинные контекстные окна. Одновременно эти методы кардинально улучшают семантический поиск, позволяя строить векторные индексы миллиардного размера с минимальными затратами памяти и высокой скоростью.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.