Top.Mail.Ru
LFM2-24B-A2B: MoE-модель для CPU-инференса с высокой скоростью | Новости ServerFlow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

LFM2-24B-A2B: новая гибридная MoE-модель с оптимизацией для локального CPU-инференса

~ 2 мин
413
Простой
Новости
LFM2-24B-A2B: новая гибридная MoE-модель с оптимизацией для локального CPU-инференса

Введение

Компания LiquidAI представила новую ИИ-модель LFM2-24B-A2B с открытым исходным кодом, которая стала самой большой и самой производительной нейросетью из семейства LFM2, ориентированного на инференс на потребительском железе. Новая LLM на гибридной MoE-архитектуре имеет 24 миллиарда общих и 2 миллиарда активных параметров, что позволяет запускать LFM2-24B-A2B даже на мощностях CPU и 32 ГБ оперативной памяти, что делает ее пригодной для использования потребительских сценариях.

Подробнее о LFM2-24B-A2B

Архитектурно новая модель LFM2-24B-A2B построена как гибридная система, сочетающая сверточные блоки и традиционные блоки внимания трансформеров. В LLM используется 40 слоев, из которых 30 — сверточные и 10 — слои внимания. Такой баланс снижает вычислительную сложность по сравнению с полностью трансформерной архитектурой и одновременно поддерживает высокое качество ответов на задачах общего назначения. Контекстное окно модели составляет 32 768 токенов — оптимальный уровень для LLM аналогичного объема. Словарный запас нейросети составляет 65 536 токенов, поддерживаются английский, китайский, арабский, французский, немецкий, японский, корейский, испанский, португальский языки — русский, к сожалению, не предусмотрен.

Обучение LFM2-24B-A2B проводилось в смешанной точности BF16/FP8, что оптимизирует как стабильность, так и экономику тренировки. Общий бюджет обучения составил 17 триллионов токенов, что указывает на масштабный корпус данных и длительный цикл оптимизации. Лицензирование осуществляется по Open LFM License v1.0 — это проприетарная лицензия от компании Liquid AI, предназначенная для использования их моделей, основанная на Apache 2.0, но содержит дополнительные условия и ограничения.

Пайплайн LFM2-24B-A2B
Пайплайн ИИ-модели LFM2-24B-A2B. Источник: LiquidAI.

По заявленным метрикам производительности, модель демонстрирует LFM2-24B-A2B скорость порядка 112 токенов в секунду на CPU от AMD Ryzen AI Max+ 395 при инференсе в llama.cpp. Стоит отметить, что чип представляет собой топовый AMD Ryzen AI Max+ 395 имеет встроенный NPU на 126 TOPS, вследствие чего модель LFM2-24B-A2B и показала столь высокую скорость. В то же время, скорость при инференсе на NVIDIA H100 в vLLM составляет 293 токенов в секунду. Модель также поддерживает запуск через движок SGLang, что дополнительно снижает порог интеграции в существующие инференс-пайплайны.

LFM2-24B-A2B на AMD Ryzen AI Max+ 395
Скорость LFM2-24B-A2B на AMD Ryzen AI Max+ 395. Источник: LiquidAI.

LFM2-24B-A2B на Nvidia H100
Скорость LFM2-24B-A2B на Nvidia H100. Источник: LiquidAI.

Выводы

LFM2-24B-A2B демонстрирует прагматичный вектор развития LLM: комбинирование MoE и гибридной архитектуры для достижения высокой интеллектуальности при ограниченных ресурсах. Если заявленные характеристики подтвердятся независимыми тестами, LFM2-24B-A2B может занять устойчивую нишу между компактными моделями для потребительского инференса и крупными облачными флагманами. Веса модели уже доступны для скачивания на Hugging Face.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)