ИИ-стартап Meituan-LongCat выложила в открытый доступ LongCat-Flash-Thinking-2601 — обновленную версию крупной модели рассуждений на 560 млрд параметров, построенную на архитектуре Mixture-of-Experts. При сохранении высокой конкурентоспособности в классических задачах логического вывода модель нацелена именно на агентные сценарии: работу с инструментами, поиск решений в сложных средах и устойчивое следование инструкциям.
Подробнее о LongCat-Flash-Thinking-2601
Архитектура LongCat-Flash-Thinking-2601 использует MoE-подход с 27 млрд активируемых параметров, что позволяет достичь высокой вычислительной мощности и увеличить контекстное окно при оптимальном расходе вычислительных инструкций за операцию. Главное отличие LongCat-Flash-Thinking-2601 от предыдущего релиза — интеграция обучающего конвейера, ориентированного на сценарии агентского мышления. Модель обучается в большом числе разнородных сред, каждая из которых содержит плотный граф из десятков инструментов. Задачи синтезируются на основе связанных подграфов, что вынуждает модель координированно использовать множество инструментов и тем самым развивать универсальные агентные навыки.
Обучение с подкреплением проводится в мультисредовом режиме с расширенной инфраструктурой DORA, где задачи разной сложности объединяются в общие батчи, а вычислительный бюджет адаптивно распределяется. Отдельное внимание уделено шуму: в процессе обучения в среды намеренно вводятся различные типы и уровни искажений, интенсивность которых постепенно растет. Это позволяет модели сохранять стабильность и демонстрировать более высокие результаты в любых агентных условиях по сравнению с обучением в “стерильных” средах.
Дополнительно реализован режим интенсивного мышления, в котором решение сложных задач разделяется на этап параллельного поиска нескольких траекторий и этап итеративного обобщения. Такой подход масштабирует одновременно ширину и глубину рассуждений и усиливается отдельным этапом обучения с подкреплением, направленным на развитие способности к синтезу решений.
В математических рассуждениях с инструментами LongCat демонстрирует уровень топ-класса. На AIME-25 он достигает 99.6% в стандартном режиме и 100% в Heavy Thinking, фактически выходя на потолок бенчмарка и равняясь с Kimi-K2, Claude Opus 4.5 и GPT-5.2. На IMO-AnswerBench и AMO-Bench LongCat стабильно выше DeepSeek и Qwen, но все еще немного уступает коммерческим моделям Gemini 3 Pro и Claude Opus 4.5.
Ключевое отличие проявляется в агентных сценариях. В BrowseComp LongCat показывает 56.6 / 73.1 (без и с контекст-менеджментом), что выше DeepSeek и GLM-4.7 и сопоставимо с GPT-5.2, а в BrowseComp-zh он выходит на 69.0 / 77.7, опережая все открытые аналоги. В RW Search LongCat набирает 79.5, уступая только GPT-5.2 (82.0), но значительно превосходя Qwen3-235B и Kimi-K2.
В использовании агентных инструментов разрыв еще заметнее. Средний балл LongCat — 88.2, что выше DeepSeek (80.6), Qwen3-235B (59.3) и сопоставимо с Gemini 3 Pro (90.7), а в сценариях с неблагоприятными агентскими факторами LongCat показывает лучший результат среди всех моделей в таблице — 67.1, обходя даже GPT-5.2 и коммерческие решения. Аналогичная картина наблюдается на VitaBench и VitaBench-Noise, где LongCat стабильно выше всех открытых конкурентов и близок к Claude и Gemini.
Производительность модели LongCat-Flash-Thinking-2601 в сравнении с топовыми ИИ-моделями. Источник: .
Выводы
LongCat-Flash-Thinking-2601 — это шаг от универсальных thinking-моделей к практико-ориентированным агентным сценариям. Комбинация MoE-архитектуры, масштабирования сред, мультисредового RL, эффективной работы даже в критических условиях и режима интенсивного мышления делает модель особенно сильной в реальных сценариях использования топовой китайской LLM.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.