Yandex Research разработала новый метод квантизации LLM
Автор: ServerFlow
Yandex Research совместно с учеными из нескольких стран создали новый метод квантизации HIGGS.
Введение
Разработчики Yandex Research при сотрудничестве с учеными из технических институтов Массачусетса, Австралии и Саудовской Аравии создали совершенно новый метод сжатия больших языковых моделей без значительного снижения точности. Метод позволят запускать передовые LLM даже на смартфонах и ноутбуках, при этом не задействуя высокопроизводительное серверное оборудование и ИИ-ускорители. Технология получила название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS).
Подробнее о HIGGS
Метод HIGGS позволяет квантизировать LLM, уменьшая количество их параметров, при этом не требуя использования дополнительных баз знаний и сложных операций по оптимизации точности. HIGGS будет особенно полезен в тех ситуациях, когда у разработчиков нет подходящих баз знаний, чтобы дообучить квантизированную модель, увеличив ее точность. HIGGS работает так: вместо сложной процедуры подбора квантизированных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных.
То есть, HIGGS обеспечивает максимальный баланс между качеством ответов и размером нейросети, при этом облегчая и ускоряя выполнение процесса квантизации, позволяя осуществлять эту операцию прямо на смартфоне или ноутбуке за несколько минут. Благодаря этому, локальное развертывание языковых моделей могут позволить себе не только крупные организации, но и малый бизнес, небольшие исследовательские институты и даже массовый потребитель.
Кроме того, HIGGS также можно применять для разработки приложений с интегрированным LLM, а также быстрее тестировать эффективность языковых моделей. Метод HIGGS уже протестировали при запуске ИИ-моделей Llama 3, Llama 4 и Qwen 2.5. Тест показал, что HIGGS является самым эффективным способом квантизации языковых моделей среди существующих аналогов, сжимающих ИИ без использования дообучения, включая 4-bit NormalFloat, Half-Quadratic Quantization, GPTQ и AWQ. Команда Yandex Research уже разработали специальный сервис для квантизации ИИ-моделей до 8 миллиардов параметров даже на пользовательских ПК, смартфонах и ноутбуках через браузер. также HIGGS уже доступен разработчикам нейросетей и ИИ-исследователям на платформах Hugging Face и GitHub, а также ему посвятили полноценную научную статью, размещенную в arXiv. Этот же исследовательский материал будет показан на конференции NAACL, которая пройдёт с 29 апреля по 4 мая в городе Альбукерка, США.
Выводы
На самом деле, Yandex давно исследует новые, оптимизированные способы квантизации ИИ, опубликовав более 10 статей в этой области, наработки из которых использовались при создании Hadamard Incoherence with Gaussian MSE-optimal GridS. Выпуск HIGGS говорит о том, что российские специалисты тоже участвуют в мировой ИИ-гонке, причем, весьма успешно — помимо нового способа квантизации, недавно было анонсировано третье поколение языковых моделей YandexGPT 3. Конечно, эти нейросети не могут похвастаться высочайшей точностью ответов, но их эффективность совершенствуется с каждым годом, поэтому не исключено, что со временем российские языковые модели выйдут в лидеры индустрии.
Yandex Research разработала новый метод квантизации LLM
Разработчики Yandex Research при сотрудничестве с учеными из технических институтов Массачусетса, Австралии и Саудовской Аравии создали совершенно новый метод сжатия больших языковых моделей без значительного снижения точности. Метод позволят запускать передовые LLM даже на смартфонах и ноутбуках, при этом не задействуя высокопроизводительное серверное оборудование и ИИ-ускорители. Технология получила название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS).
Подробнее о HIGGS
Метод HIGGS позволяет квантизировать LLM, уменьшая количество их параметров, при этом не требуя использования дополнительных баз знаний и сложных операций по оптимизации точности. HIGGS будет особенно полезен в тех ситуациях, когда у разработчиков нет подходящих баз знаний, чтобы дообучить квантизированную модель, увеличив ее точность. HIGGS работает так: вместо сложной процедуры подбора квантизированных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных.
То есть, HIGGS обеспечивает максимальный баланс между качеством ответов и размером нейросети, при этом облегчая и ускоряя выполнение процесса квантизации, позволяя осуществлять эту операцию прямо на смартфоне или ноутбуке за несколько минут. Благодаря этому, локальное развертывание языковых моделей могут позволить себе не только крупные организации, но и малый бизнес, небольшие исследовательские институты и даже массовый потребитель.
Кроме того, HIGGS также можно применять для разработки приложений с интегрированным LLM, а также быстрее тестировать эффективность языковых моделей. Метод HIGGS уже протестировали при запуске ИИ-моделей Llama 3, Llama 4 и Qwen 2.5. Тест показал, что HIGGS является самым эффективным способом квантизации языковых моделей среди существующих аналогов, сжимающих ИИ без использования дообучения, включая 4-bit NormalFloat, Half-Quadratic Quantization, GPTQ и AWQ. Команда Yandex Research уже разработали специальный сервис для квантизации ИИ-моделей до 8 миллиардов параметров даже на пользовательских ПК, смартфонах и ноутбуках через браузер. также HIGGS уже доступен разработчикам нейросетей и ИИ-исследователям на платформах Hugging Face и GitHub, а также ему посвятили полноценную научную статью, размещенную в arXiv. Этот же исследовательский материал будет показан на конференции NAACL, которая пройдёт с 29 апреля по 4 мая в городе Альбукерка, США.
Выводы
На самом деле, Yandex давно исследует новые, оптимизированные способы квантизации ИИ, опубликовав более 10 статей в этой области, наработки из которых использовались при создании Hadamard Incoherence with Gaussian MSE-optimal GridS. Выпуск HIGGS говорит о том, что российские специалисты тоже участвуют в мировой ИИ-гонке, причем, весьма успешно — помимо нового способа квантизации, недавно было анонсировано третье поколение языковых моделей YandexGPT 3. Конечно, эти нейросети не могут похвастаться высочайшей точностью ответов, но их эффективность совершенствуется с каждым годом, поэтому не исключено, что со временем российские языковые модели выйдут в лидеры индустрии.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.