Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Yandex Research разработала новый метод квантизации LLM

Автор:

Yandex Research разработала новый метод квантизации LLM

Yandex Research совместно с учеными из нескольких стран создали новый метод квантизации HIGGS.

Введение Разработчики Yandex Research при сотрудничестве с учеными из технических институтов Массачусетса, Австралии и Саудовской Аравии создали совершенно новый метод сжатия больших языковых моделей без значительного снижения точности. Метод позволят запускать передовые LLM даже на смартфонах и ноутбуках, при этом не задействуя высокопроизводительное серверное оборудование и ИИ-ускорители. Технология получила название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS). Подробнее о HIGGS Метод HIGGS позволяет квантизировать LLM, уменьшая количество их параметров, при этом не требуя использования дополнительных баз знаний и сложных операций по оптимизации точности. HIGGS будет особенно полезен в тех ситуациях, когда у разработчиков нет подходящих баз знаний, чтобы дообучить квантизированную модель, увеличив ее точность. HIGGS работает так: вместо сложной процедуры подбора квантизированных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных. То есть, HIGGS обеспечивает максимальный баланс между качеством ответов и размером нейросети, при этом облегчая и ускоряя выполнение процесса квантизации, позволяя осуществлять эту операцию прямо на смартфоне или ноутбуке за несколько минут. Благодаря этому, локальное развертывание языковых моделей могут позволить себе не только крупные организации, но и малый бизнес, небольшие исследовательские институты и даже массовый потребитель.  Кроме того, HIGGS также можно применять для разработки приложений с интегрированным LLM, а также быстрее тестировать эффективность языковых моделей. Метод HIGGS уже протестировали при запуске ИИ-моделей Llama 3, Llama 4 и Qwen 2.5. Тест показал, что HIGGS является самым эффективным способом квантизации языковых моделей среди существующих аналогов, сжимающих ИИ без использования дообучения, включая 4-bit NormalFloat, Half-Quadratic Quantization, GPTQ и AWQ. Команда Yandex Research уже разработали специальный сервис для квантизации ИИ-моделей до 8 миллиардов параметров даже на пользовательских ПК, смартфонах и ноутбуках через браузер. также HIGGS уже доступен разработчикам нейросетей и ИИ-исследователям на платформах Hugging Face и GitHub, а также ему посвятили полноценную научную статью, размещенную в arXiv. Этот же исследовательский материал будет показан на конференции NAACL, которая пройдёт с 29 апреля по 4 мая в городе Альбукерка, США.  Выводы На самом деле, Yandex давно исследует новые, оптимизированные способы квантизации ИИ, опубликовав более 10 статей в этой области, наработки из которых использовались при создании Hadamard Incoherence with Gaussian MSE-optimal GridS. Выпуск HIGGS говорит о том, что российские специалисты тоже участвуют в мировой ИИ-гонке, причем, весьма успешно — помимо нового способа квантизации, недавно было анонсировано третье поколение языковых моделей YandexGPT 3. Конечно, эти нейросети не могут похвастаться высочайшей точностью ответов, но их эффективность совершенствуется с каждым годом, поэтому не исключено, что со временем российские языковые модели выйдут в лидеры индустрии. 

Yandex Research разработала новый метод квантизации LLM

~ 2 мин
59
Простой
Новости
Yandex Research разработала новый метод квантизации LLM

Введение

Разработчики Yandex Research при сотрудничестве с учеными из технических институтов Массачусетса, Австралии и Саудовской Аравии создали совершенно новый метод сжатия больших языковых моделей без значительного снижения точности. Метод позволят запускать передовые LLM даже на смартфонах и ноутбуках, при этом не задействуя высокопроизводительное серверное оборудование и ИИ-ускорители. Технология получила название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS).

Подробнее о HIGGS

Метод HIGGS позволяет квантизировать LLM, уменьшая количество их параметров, при этом не требуя использования дополнительных баз знаний и сложных операций по оптимизации точности. HIGGS будет особенно полезен в тех ситуациях, когда у разработчиков нет подходящих баз знаний, чтобы дообучить квантизированную модель, увеличив ее точность. HIGGS работает так: вместо сложной процедуры подбора квантизированных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных.


То есть, HIGGS обеспечивает максимальный баланс между качеством ответов и размером нейросети, при этом облегчая и ускоряя выполнение процесса квантизации, позволяя осуществлять эту операцию прямо на смартфоне или ноутбуке за несколько минут. Благодаря этому, локальное развертывание языковых моделей могут позволить себе не только крупные организации, но и малый бизнес, небольшие исследовательские институты и даже массовый потребитель. 

Кроме того, HIGGS также можно применять для разработки приложений с интегрированным LLM, а также быстрее тестировать эффективность языковых моделей. Метод HIGGS уже протестировали при запуске ИИ-моделей Llama 3, Llama 4 и Qwen 2.5. Тест показал, что HIGGS является самым эффективным способом квантизации языковых моделей среди существующих аналогов, сжимающих ИИ без использования дообучения, включая 4-bit NormalFloat, Half-Quadratic Quantization, GPTQ и AWQ. Команда Yandex Research уже разработали специальный сервис для квантизации ИИ-моделей до 8 миллиардов параметров даже на пользовательских ПК, смартфонах и ноутбуках через браузер. также HIGGS уже доступен разработчикам нейросетей и ИИ-исследователям на платформах Hugging Face и GitHub, а также ему посвятили полноценную научную статью, размещенную в arXiv. Этот же исследовательский материал будет показан на конференции NAACL, которая пройдёт с 29 апреля по 4 мая в городе Альбукерка, США. 

Выводы

На самом деле, Yandex давно исследует новые, оптимизированные способы квантизации ИИ, опубликовав более 10 статей в этой области, наработки из которых использовались при создании Hadamard Incoherence with Gaussian MSE-optimal GridS. Выпуск HIGGS говорит о том, что российские специалисты тоже участвуют в мировой ИИ-гонке, причем, весьма успешно — помимо нового способа квантизации, недавно было анонсировано третье поколение языковых моделей YandexGPT 3. Конечно, эти нейросети не могут похвастаться высочайшей точностью ответов, но их эффективность совершенствуется с каждым годом, поэтому не исключено, что со временем российские языковые модели выйдут в лидеры индустрии. 

Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)