Top.Mail.Ru
AMD-HybridLM: новое семейство гибридных LLM | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

AMD-HybridLM: новое семейство гибридных LLM

~ 2 мин
221
Простой
Новости
AMD-HybridLM: новое семейство гибридных LLM

Введение

Компания AMD представила семейство новых компактныъ нейросетей, основанных на принципиально новом, гибридном подходе создания языковых моделей — AMD-HybridLM. Внутренние тесты показывают, что семейство AMD-HybridLM демонстрирует непревзойденный баланс между точностью и требованиями к системным ресурсом, что позволяет использовать их в устройствах с ограничениями по объему VRAM и TDP.

Подробнее о AMD-HybridLM

AMD считает, что традиционные модели-трансформеры сталкиваются с проблемами квадратичной сложности механизма внимания и большими требованиями к KV-кэшу. В высокопроизводительных ИИ-системах эти параметры не так критичны, однако в системах периферийных вычислений все это приводит к значительному увеличению задержек. 

Сравнение характеристик AMD-HybridLM-8B с Llama-3.1-8B и MambaInLlama-8B-50%
Сравнение точности, объема KV-кэша и пропускной способности инференса моделей AMD-HybridLM-8B с Llama-3.1-8B и MambaInLlama-8B-50%. Источник: AMD.

Чтобы решить эти проблемы, AMD предлагает практичное и эффективное решение в лице семейства гибридных моделей AMD-HybridLM (1B, 3B и 8B), созданных на базе предобученных трансформеров без использования полного переобучения. Архитектура новых нейросетей сочетает два ключевых компонента: механизмы Multi-Latent Attention (MLA) и Mamba2, что позволяет значительно сократить потребление памяти и затраты на инференс без компромиссов в производительности.

Гибридная комбинация слоев MLA, которые сжимают механизм внимания, и Mamba2 (базируется на State Space Models), которые устраняют необходимость в использовании KV-кэша, обеспечивают снижение расхода VRAM, увеличивают контекстное окно, при этом полностью сохраняя высокий уровень производительности. Кроме того, AMD применяет усовершенствованную инициализаци, промежуточную дистилляцию слоев и интеллектуальный выбор слоев SMART, что увеличивает эффективность дообучения LLM. Благодаря этим архитектурным доработкам, модели демонстрируют конкурентоспособную или повышенную производительность при значительно меньшем размере KV-кэша и повышенной пропускной способности инференса.

Тестирование моделей AMD-HybridLM в бенчмарке LM Harness Eval
Тестирование моделей AMD-HybridLM без использования обучающих данных в бенчмарке LM Harness Eval по восьми базовым ИИ-задачам. Источник: AMD.

Семейство моделей AMD-HybridLM включает семь конфигураций с различной степенью сжатия KV-кэша (от 12,8x до 49,8x) и оптимизированными параметрами обучения. Все модели семейства созданы на базе архитектуры Llama* (Llama* 3.2-1B-Instruct, Llama* 3.2-3B-Instruct и Llama* 3.1-8B-Instruct) и обучались на специализированных Llama* 3-ultrafeedback, orca_dpo_pairs и ultrafeedback_binarized lля прямой оптимизации предпочтений (DPO). с использованием 8 GPU AMD MI300.

Оценка использования VRAM при инференсе AMD-HybridLM
Оценка использования VRAM при инференсе AMD-HybridLM и других ИИ-моделей на ускорителях AMD MI300. Источник: AMD.

Выводы

Гибридные модели AMD-HybridLM демонстрируют наилучший баланс между точностью и эффективностью вывода, что делает их идеальным решением для развертывания на современном оборудовании, включая системы на базе ускорителей AMD Instinct MI300X, а также на периферийных системах с низким объемом VRAM. Вполне возможно, что благодаря AMD модели-трансформеры получат новый виток развития, превратившись в гибридные нейросети с оптимизированными возможностями инференса и демократичными требованиями к вычислительным ресурсам.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)