Top.Mail.Ru
LongCat-Flash-Lite: MoE-модель ставкой на скорость, а не точность | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

LongCat-Flash-Lite: MoE-модель ставкой на скорость, а не точность

~ 2 мин
62
Простой
Новости
LongCat-Flash-Lite: MoE-модель ставкой на скорость, а не точность

Введение

Команда Meituan LongCat представила LongCat-Flash-Lite — свою новую облегченную Mixture-of-Experts модель без режима размышления, ориентированную на агентные сценарии и программирование. При общем размере 68,5 млрд параметров модель активирует около 3 млрд за токен и поддерживает контекст до 256 тысяч токенов благодаря YaRN. Ключевая особенность релиза — отказ от наращивания числа экспертов в пользу масштабирования через N-граммные таблицы встраивания, что меняет баланс между качеством и скоростью вывода.

Подробнее о LongCat-Flash-Lite

LongCat-Flash-Lite построена на архитектуре LongCat-Flash, но вместо классического MoE-упора на полносвязных экспертов использует крупную таблицу N-граммных эмбеддингов, на которую приходится более 30 млрд параметров. Такой подход снижает I/O-нагрузку в слоях MoE и позволяет обойти типичные узкие места при инференсе. За счет специализированного кэша N-грамм и синхронизированных вычислительных ядер модель демонстрирует более низкие задержки по сравнению с сопоставимыми MoE-решениями.

В агентных бенчмарках LongCat-Flash-Lite заметно опережает прямых конкурентов. В задачах Tau2 модель набирает 58,0 в Airline, 73,1 в Retail и 72,8 в Telecom — это существенно выше показателей Kimi-Linear-48B-A3B, Qwen3-Next-80B-A3B-Instruct и Gemini 2.5 Flash-Lite, которые в этих сценариях остаются в диапазоне от середины десятков до низких пятидесятых. Это указывает на более стабильное использование инструментов и лучшую координацию действий в многошаговых агентных задачах.

В агентном программировании преимущество сохраняется. На SWE-Bench модель показывает 54,4 % точности, заметно обгоняя Qwen3-Next и Gemini 2.5 Flash-Lite, а на TerminalBench достигает 33,75 %, тогда как конкуренты остаются около 15–20 %. Особенно показателен PRDBench, где LongCat-Flash-Lite демонстрирует почти 40 баллов при существенно более низких результатах у альтернатив.

При этом в чистых академических тестах рассуждений модель не всегда лидер. На GPQA-Diamond она уступает Qwen3-Next, а на MMLU-Pro и CMMLU остается в середине группы. В математических бенчмарках ситуация более сбалансированная: на MATH500 и AIME24/25 LongCat-Flash-Lite стабильно превосходит Gemini 2.5 Flash-Lite, но не дотягивает до максимальных значений Qwen3-Next. В совокупности это подчеркивает, что модель оптимизирована не под абстрактное reasoning, а под практическое выполнение задач.

Выводы

LongCat-Flash-Lite — это осознанный сдвиг в сторону системной эффективности. Вместо агрессивного роста числа экспертов разработчики сделали ставку на масштабирование через встраивания, выиграв в скорости инференса и агентной применимости. По результатам тестов модель уверенно доминирует в агентных и кодинговых сценариях, оставаясь конкурентоспособной в общих и математических доменах. Это делает LongCat-Flash-Lite не универсальным интеллектуальным флагманом, а специализированным рабочим инструментом для агентных систем и автоматизации, где важнее пропускная способность и стабильность, чем максимальные баллы в теоретических бенчмарках.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)