Квантизация MXFP4 в GPT-OSS: зачем OpenAI отказалась от Q4_K_M и что это меняет для локальных ИИ-моделей

18.08.2025

~ 27 мин

4936

Сложный

Статьи

Введение: новый формат и новое поколение ИИ

Появление GPT-OSS стало знаковым событием для сообщества разработчиков и энтузиастов искусственного интеллекта. Это первая публичная локальная модель от OpenAI, доступная для запуска без подключения к облачным сервисам. Но куда интереснее не сам факт релиза, а технологические решения, лежащие в основе GPT-OSS.

Главным новшеством стал переход на нетипичный для индустрии формат квантизации MXFP4. До этого подавляющее большинство локальных версий крупных языковых моделей использовало проверенные схемы вроде Q4_K_M, который сочетал баланс между точностью, размером и скоростью работы.

В этой статье мы разберём, что представляет собой MXFP4, почему OpenAI отказалась от привычных решений, и как это изменение скажется на развитии локальных ИИ-моделей. Мы сравним MXFP4 с Q4_K_M, рассмотрим технические различия и оценим, что выигрывает и что теряет сообщество от такого шага.

Что такое MXFP4: от формата к технологии

MXFP4 это новый подход к квантизации весов нейросетей, в котором сочетаются два принципа: 4-битное представление с плавающей точкой и техника Microscaling. Такое сочетание даёт возможность значительно сжать модель без критической потери точности, при этом сохраняя широкий динамический диапазон значений.

FP4 — 4-битная плавающая точка

В основе MXFP4 лежит формат FP4 с разметкой E2M1.

Сравнение int4 (signed) и FP4 (с разметкой E2M1). int4: 1 бит: знак, 3 бита: целое значение. FP4: 1 бит: знак, 2 бита: экспонента, 1 бит: мантисса.

В отличие от int4, где значения кодируются целыми числами и масштабируются внешними коэффициентами, FP4 полноценное число с плавающей точкой, пусть и в предельно компактной форме. Такой формат позволяет кодировать как очень маленькие, так и достаточно большие значения даже в 4-битном представлении, обеспечивая широкий динамический диапазон.

Microscaling: масштаб внутри блоков

Ключевым новшеством MXFP4 является использование метода Microscaling. Веса тензоров делятся на небольшие блоки, чаще всего по 32 значения. Для каждого блока подбирается собственный коэффициент масштабирования (scale) в формате FP8, который применяется ко всем числам внутри блока.

Такой подход решает проблему кодирования весов с сильно различающимися величинами. Даже если в одном блоке есть и очень большие, и очень маленькие значения, их можно корректно закодировать в FP4, выбрав оптимальный масштаб. В результате достигается высокая точность даже при экстремальном сжатии, эффективно используется память и сохраняется устойчивость к перепадам величин весов.

По сути, MXFP4 не просто 4-битный формат, а адаптивная 4-битная плавающая точка с локальной нормализацией, что и обеспечивает его ключевые преимущества.

Почему OpenAI выбрала MXFP4, а не Q4_K_M

Переход от привычной схемы Q4_K_M к формату MXFP4 далеко не случайное решение, а стратегический шаг, связанный с требованиями к производительности, памяти и аппаратной поддержке. Ниже рассмотрим ключевые причины, по которым OpenAI сделала этот выбор.

Причина № 1: запуск гигантской модели на одном GPU

Главное преимущество MXFP4 это возможность запускать действительно огромные модели на одной видеокарте. Например, GPT-OSS 120B (на 117 млрд параметров) можно загрузить в NVIDIA H100 с 80 ГБ памяти без распределённых вычислений, а GPT-OSS 20B помещается в 16 ГБ видеопамяти, что делает её доступной даже на потребительских RTX. Такой уровень компактности невозможен при классической int4-квантизации: для сохранения динамического диапазона там приходится добавлять дополнительные масштабирующие коэффициенты, которые увеличивают объём данных.

Причина № 2: родной формат модели

MXFP4 изначально был родным форматом для GPT-OSS. Модель обучалась с учётом FP4, а не переводилась в него после обучения. Это позволило сразу оптимизировать веса под специфику формата, минимизировать потери точности и повысить стабильность работы по сравнению с Q4_K_M или другими int4-схемами, которые хуже переносят масштабную конвертацию.

Причина № 3: совместимость с новым железом

Софтовая поддержка FP4 появилась ещё в NVIDIA Hopper (H100), но аппаратную внедрили только с поколения Blackwell (B200), она также представлена в потребительских RTX 5000 и будет продолжаться в следующих линейках. В этих GPU появились тензорные ядра с поддержкой FP4, обрабатывающие MXFP4 быстрее, чем FP8, и кратно быстрее чем FP16.

Чем отличается MXFP4 от Q4_K_M

Хотя оба формата относятся к 4-битной квантизации, подходы MXFP4 и Q4_K_M радикально различаются как по внутреннему устройству, так и по практическим результатам.

sravnitelnaya-tablicza-razlichij-mxfp4-i-q4_k_m

Сравнительная таблица различий MXFP4 и Q4_K_M.

MXFP4 выигрывает в диапазоне значений и аппаратной эффективности за счёт плавающей точки и поддержки новыми GPU, тогда как Q4_K_M остаётся более совместимым с существующим ПО, но хуже переносит сложные архитектуры вроде Mixture of Experts.

Что такое NVFP4 и как он улучшает MXFP4

После выхода MXFP4 компания NVIDIA представила собственный вариант этого формата - NVFP4, который стал его эволюцией и получил ряд технических улучшений. Главное изменение заключается в уменьшении размера блоков: вместо 32 значений теперь используется 16. Это позволяет более точно подбирать масштаб для каждого блока и уменьшает влияние отдельных аномальных значений на всю группу.

В NVFP4 реализована двухуровневая система масштабирования. Каждый блок получает локальный коэффициент в формате FP8, отвечающий за нормализацию значений внутри блока, а поверх этого вводится глобальный масштаб в формате FP32, который управляет диапазоном всего тензора. Такое сочетание снижает ошибки при работе с длинными последовательностями активаций и лучше справляется с выбросами, сохраняя баланс между сжатием и точностью.

Формат NVFP4 не просто техническая доработка MXFP4, а часть долгосрочной стратегии NVIDIA по внедрению новых числовых представлений в своих ускорителях. Поддержка этого формата уже заложена в архитектуру Blackwell, включая флагманский GPU GB200, что делает его ключевым элементом будущих высокопроизводительных ИИ-систем.

Почему раньше FP4 не использовали

Несмотря на очевидную привлекательность 4-битной плавающей точки с точки зрения компромисса между размером и качеством, до недавнего времени формат FP4 оставался скорее теоретической возможностью, чем практическим инструментом. Причина в отсутствии аппаратной поддержки: до появления архитектуры Blackwell массовые GPU просто не умели обрабатывать FP4 на аппаратном уровне, а попытки реализовать его через эмуляцию оказывались слишком медленными для реального применения.

Вторым барьером было программное окружение. Популярные фреймворки и библиотеки инференса не имели готовых решений для работы с FP4. Для полноценного внедрения требовалась серьёзная доработка всей цепочки — от компиляторов и CUDA-ядер до движков инференса. Без этой экосистемы FP4 оставался экспериментальной технологией, применимой лишь в узких исследовательских проектах.

Ситуация переменилась, когда OpenAI первой рискнула обучить и опубликовать модель, изначально рассчитанную на FP4, ею как раз и была GPT-OSS. Это стало не только техническим экспериментом, но и важным сигналом для индустрии: новый формат можно использовать в реальных продуктах, если параллельно развивать и аппаратную, и программную поддержку.

Итоги: MXFP4 — шаг в будущее

Формат MXFP4 стал ключевым технологическим элементом GPT-OSS, позволив этой модели выйти за рамки лабораторий и стать доступной для локального запуска. Он объединяет компактность 4-битных целочисленных форматов с гибкостью чисел с плавающей точкой, при этом превосходя популярную схему Q4_K_M по точности и стабильности работы.

Важно понимать, что FP4 не просто «очередная новинка» для демонстрации возможностей нового железа. Это реальный инструмент будущего, который открывает путь к запуску моделей с сотнями миллиардов параметров на одном ускорителе без жёстких компромиссов по качеству.

Решение OpenAI обучить и выпустить модель сразу в FP4 стало поворотным моментом для индустрии. Оно показало, что квантизацию можно переосмыслить и превратить её из средства экономии памяти в фундаментальную архитектурную особенность, делающую локальные ИИ-модели по-настоящему масштабными.

Автор:

Serverflow