Разработчики Yandex Research при сотрудничестве с учеными из технических институтов Массачусетса, Австралии и Саудовской Аравии создали совершенно новый метод сжатия больших языковых моделей без значительного снижения точности. Метод позволят запускать передовые LLM даже на смартфонах и ноутбуках, при этом не задействуя высокопроизводительное серверное оборудование и ИИ-ускорители. Технология получила название Hadamard Incoherence with Gaussian MSE-optimal GridS (HIGGS).
Подробнее о HIGGS
Метод HIGGS позволяет квантизировать LLM, уменьшая количество их параметров, при этом не требуя использования дополнительных баз знаний и сложных операций по оптимизации точности. HIGGS будет особенно полезен в тех ситуациях, когда у разработчиков нет подходящих баз знаний, чтобы дообучить квантизированную модель, увеличив ее точность. HIGGS работает так: вместо сложной процедуры подбора квантизированных весов, HIGGS преобразует нейросеть в особый формат, в котором веса можно округлять без использования дополнительных данных.
То есть, HIGGS обеспечивает максимальный баланс между качеством ответов и размером нейросети, при этом облегчая и ускоряя выполнение процесса квантизации, позволяя осуществлять эту операцию прямо на смартфоне или ноутбуке за несколько минут. Благодаря этому, локальное развертывание языковых моделей могут позволить себе не только крупные организации, но и малый бизнес, небольшие исследовательские институты и даже массовый потребитель.
Кроме того, HIGGS также можно применять для разработки приложений с интегрированным LLM, а также быстрее тестировать эффективность языковых моделей. Метод HIGGS уже протестировали при запуске ИИ-моделей Llama 3, Llama 4 и Qwen 2.5. Тест показал, что HIGGS является самым эффективным способом квантизации языковых моделей среди существующих аналогов, сжимающих ИИ без использования дообучения, включая 4-bit NormalFloat, Half-Quadratic Quantization, GPTQ и AWQ. Команда Yandex Research уже разработали специальный сервис для квантизации ИИ-моделей до 8 миллиардов параметров даже на пользовательских ПК, смартфонах и ноутбуках через браузер. также HIGGS уже доступен разработчикам нейросетей и ИИ-исследователям на платформах Hugging Face и GitHub, а также ему посвятили полноценную научную статью, размещенную в arXiv. Этот же исследовательский материал будет показан на конференции NAACL, которая пройдёт с 29 апреля по 4 мая в городе Альбукерка, США.
Выводы
На самом деле, Yandex давно исследует новые, оптимизированные способы квантизации ИИ, опубликовав более 10 статей в этой области, наработки из которых использовались при создании Hadamard Incoherence with Gaussian MSE-optimal GridS. Выпуск HIGGS говорит о том, что российские специалисты тоже участвуют в мировой ИИ-гонке, причем, весьма успешно — помимо нового способа квантизации, недавно было анонсировано третье поколение языковых моделей YandexGPT 3. Конечно, эти нейросети не могут похвастаться высочайшей точностью ответов, но их эффективность совершенствуется с каждым годом, поэтому не исключено, что со временем российские языковые модели выйдут в лидеры индустрии.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.