LFM2-24B-A2B: новая гибридная MoE-модель с оптимизацией для локального CPU-инференса

25.02.2026

~ 2 мин

413

Простой

Новости

Введение

Компания LiquidAI представила новую ИИ-модель LFM2-24B-A2B с открытым исходным кодом, которая стала самой большой и самой производительной нейросетью из семейства LFM2, ориентированного на инференс на потребительском железе. Новая LLM на гибридной MoE-архитектуре имеет 24 миллиарда общих и 2 миллиарда активных параметров, что позволяет запускать LFM2-24B-A2B даже на мощностях CPU и 32 ГБ оперативной памяти, что делает ее пригодной для использования потребительских сценариях.

Подробнее о LFM2-24B-A2B

Архитектурно новая модель LFM2-24B-A2B построена как гибридная система, сочетающая сверточные блоки и традиционные блоки внимания трансформеров. В LLM используется 40 слоев, из которых 30 — сверточные и 10 — слои внимания. Такой баланс снижает вычислительную сложность по сравнению с полностью трансформерной архитектурой и одновременно поддерживает высокое качество ответов на задачах общего назначения. Контекстное окно модели составляет 32 768 токенов — оптимальный уровень для LLM аналогичного объема. Словарный запас нейросети составляет 65 536 токенов, поддерживаются английский, китайский, арабский, французский, немецкий, японский, корейский, испанский, португальский языки — русский, к сожалению, не предусмотрен.

Обучение LFM2-24B-A2B проводилось в смешанной точности BF16/FP8, что оптимизирует как стабильность, так и экономику тренировки. Общий бюджет обучения составил 17 триллионов токенов, что указывает на масштабный корпус данных и длительный цикл оптимизации. Лицензирование осуществляется по Open LFM License v1.0 — это проприетарная лицензия от компании Liquid AI, предназначенная для использования их моделей, основанная на Apache 2.0, но содержит дополнительные условия и ограничения.

Пайплайн ИИ-модели LFM2-24B-A2B. Источник: LiquidAI.

По заявленным метрикам производительности, модель демонстрирует LFM2-24B-A2B скорость порядка 112 токенов в секунду на CPU от AMD Ryzen AI Max+ 395 при инференсе в llama.cpp. Стоит отметить, что чип представляет собой топовый AMD Ryzen AI Max+ 395 имеет встроенный NPU на 126 TOPS, вследствие чего модель LFM2-24B-A2B и показала столь высокую скорость. В то же время, скорость при инференсе на NVIDIA H100 в vLLM составляет 293 токенов в секунду. Модель также поддерживает запуск через движок SGLang, что дополнительно снижает порог интеграции в существующие инференс-пайплайны.

Скорость LFM2-24B-A2B на AMD Ryzen AI Max+ 395. Источник: LiquidAI.

Скорость LFM2-24B-A2B на Nvidia H100. Источник: LiquidAI.

Выводы

LFM2-24B-A2B демонстрирует прагматичный вектор развития LLM: комбинирование MoE и гибридной архитектуры для достижения высокой интеллектуальности при ограниченных ресурсах. Если заявленные характеристики подтвердятся независимыми тестами, LFM2-24B-A2B может занять устойчивую нишу между компактными моделями для потребительского инференса и крупными облачными флагманами. Веса модели уже доступны для скачивания на Hugging Face.

Автор:

Serverflow