Yandex Research разработала новый метод квантизации LLM

13.04.2025

~ 2 мин

521

Простой

Новости

Введение

Разработчики Yandex Research при сотрудничестве с учеными из технических институтов Массачусетса, Австралии и Саудовской Аравии создали совершенно новый метод сжатия больших языковых моделей без значительного снижения точности. Метод позволят запускать передовые LLM даже на смартфонах и ноутбуках, при этом не задействуя высокопроизводительное серверное оборудование и ИИ-ускорители. Технология получила название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS).

Подробнее о HIGGS

Метод HIGGS позволяет квантизировать LLM, уменьшая количество их параметров, при этом не требуя использования дополнительных баз знаний и сложных операций по оптимизации точности. HIGGS будет особенно полезен в тех ситуациях, когда у разработчиков нет подходящих баз знаний, чтобы дообучить квантизированную модель, увеличив ее точность. HIGGS работает так: вместо сложной процедуры подбора квантизированных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных.

То есть, HIGGS обеспечивает максимальный баланс между качеством ответов и размером нейросети, при этом облегчая и ускоряя выполнение процесса квантизации, позволяя осуществлять эту операцию прямо на смартфоне или ноутбуке за несколько минут. Благодаря этому, локальное развертывание языковых моделей могут позволить себе не только крупные организации, но и малый бизнес, небольшие исследовательские институты и даже массовый потребитель.

Кроме того, HIGGS также можно применять для разработки приложений с интегрированным LLM, а также быстрее тестировать эффективность языковых моделей. Метод HIGGS уже протестировали при запуске ИИ-моделей Llama 3, Llama 4 и Qwen 2.5. Тест показал, что HIGGS является самым эффективным способом квантизации языковых моделей среди существующих аналогов, сжимающих ИИ без использования дообучения, включая 4-bit NormalFloat, Half-Quadratic Quantization, GPTQ и AWQ. Команда Yandex Research уже разработали специальный сервис для квантизации ИИ-моделей до 8 миллиардов параметров даже на пользовательских ПК, смартфонах и ноутбуках через браузер. также HIGGS уже доступен разработчикам нейросетей и ИИ-исследователям на платформах Hugging Face и GitHub, а также ему посвятили полноценную научную статью, размещенную в arXiv. Этот же исследовательский материал будет показан на конференции NAACL, которая пройдёт с 29 апреля по 4 мая в городе Альбукерка, США.

Выводы

На самом деле, Yandex давно исследует новые, оптимизированные способы квантизации ИИ, опубликовав более 10 статей в этой области, наработки из которых использовались при создании Hadamard Incoherence with Gaussian MSE-optimal GridS. Выпуск HIGGS говорит о том, что российские специалисты тоже участвуют в мировой ИИ-гонке, причем, весьма успешно — помимо нового способа квантизации, недавно было анонсировано третье поколение языковых моделей YandexGPT 3. Конечно, эти нейросети не могут похвастаться высочайшей точностью ответов, но их эффективность совершенствуется с каждым годом, поэтому не исключено, что со временем российские языковые модели выйдут в лидеры индустрии.

Автор:

Serverflow

Yandex Research разработала новый метод квантизации LLM

Введение

Подробнее о HIGGS

Выводы

Комментарии 0