Команда Meituan LongCat представила LongCat-Flash-Lite — свою новую облегченную Mixture-of-Experts модель без режима размышления, ориентированную на агентные сценарии и программирование. При общем размере 68,5 млрд параметров модель активирует около 3 млрд за токен и поддерживает контекст до 256 тысяч токенов благодаря YaRN. Ключевая особенность релиза — отказ от наращивания числа экспертов в пользу масштабирования через N-граммные таблицы встраивания, что меняет баланс между качеством и скоростью вывода.
Подробнее о LongCat-Flash-Lite
LongCat-Flash-Lite построена на архитектуре LongCat-Flash, но вместо классического MoE-упора на полносвязных экспертов использует крупную таблицу N-граммных эмбеддингов, на которую приходится более 30 млрд параметров. Такой подход снижает I/O-нагрузку в слоях MoE и позволяет обойти типичные узкие места при инференсе. За счет специализированного кэша N-грамм и синхронизированных вычислительных ядер модель демонстрирует более низкие задержки по сравнению с сопоставимыми MoE-решениями.
В агентных бенчмарках LongCat-Flash-Lite заметно опережает прямых конкурентов. В задачах Tau2 модель набирает 58,0 в Airline, 73,1 в Retail и 72,8 в Telecom — это существенно выше показателей Kimi-Linear-48B-A3B, Qwen3-Next-80B-A3B-Instruct и Gemini 2.5 Flash-Lite, которые в этих сценариях остаются в диапазоне от середины десятков до низких пятидесятых. Это указывает на более стабильное использование инструментов и лучшую координацию действий в многошаговых агентных задачах.
В агентном программировании преимущество сохраняется. На SWE-Bench модель показывает 54,4 % точности, заметно обгоняя Qwen3-Next и Gemini 2.5 Flash-Lite, а на TerminalBench достигает 33,75 %, тогда как конкуренты остаются около 15–20 %. Особенно показателен PRDBench, где LongCat-Flash-Lite демонстрирует почти 40 баллов при существенно более низких результатах у альтернатив.
При этом в чистых академических тестах рассуждений модель не всегда лидер. На GPQA-Diamond она уступает Qwen3-Next, а на MMLU-Pro и CMMLU остается в середине группы. В математических бенчмарках ситуация более сбалансированная: на MATH500 и AIME24/25 LongCat-Flash-Lite стабильно превосходит Gemini 2.5 Flash-Lite, но не дотягивает до максимальных значений Qwen3-Next. В совокупности это подчеркивает, что модель оптимизирована не под абстрактное reasoning, а под практическое выполнение задач.
Выводы
LongCat-Flash-Lite — это осознанный сдвиг в сторону системной эффективности. Вместо агрессивного роста числа экспертов разработчики сделали ставку на масштабирование через встраивания, выиграв в скорости инференса и агентной применимости. По результатам тестов модель уверенно доминирует в агентных и кодинговых сценариях, оставаясь конкурентоспособной в общих и математических доменах. Это делает LongCat-Flash-Lite не универсальным интеллектуальным флагманом, а специализированным рабочим инструментом для агентных систем и автоматизации, где важнее пропускная способность и стабильность, чем максимальные баллы в теоретических бенчмарках.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.