Top.Mail.Ru
LongCat-Flash-Thinking-2601: агентная LLM на 560B с упором на работу в сложных сценариях | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

LongCat-Flash-Thinking-2601: агентная LLM на 560B с упором на работу в сложных сценариях

~ 2 мин
183
Простой
Новости
LongCat-Flash-Thinking-2601: агентная LLM на 560B с упором на работу в сложных сценариях

Введение

ИИ-стартап Meituan-LongCat выложила в открытый доступ LongCat-Flash-Thinking-2601 — обновленную версию крупной модели рассуждений на 560 млрд параметров, построенную на архитектуре Mixture-of-Experts. При сохранении высокой конкурентоспособности в классических задачах логического вывода модель нацелена именно на агентные сценарии: работу с инструментами, поиск решений в сложных средах и устойчивое следование инструкциям.

Подробнее о LongCat-Flash-Thinking-2601

Архитектура LongCat-Flash-Thinking-2601 использует MoE-подход с 27 млрд активируемых параметров, что позволяет достичь высокой вычислительной мощности и увеличить контекстное окно при оптимальном расходе вычислительных инструкций за операцию. Главное отличие LongCat-Flash-Thinking-2601 от предыдущего релиза — интеграция обучающего конвейера, ориентированного на сценарии агентского мышления. Модель обучается в большом числе разнородных сред, каждая из которых содержит плотный граф из десятков инструментов. Задачи синтезируются на основе связанных подграфов, что вынуждает модель координированно использовать множество инструментов и тем самым развивать универсальные агентные навыки.

Обучение с подкреплением проводится в мультисредовом режиме с расширенной инфраструктурой DORA, где задачи разной сложности объединяются в общие батчи, а вычислительный бюджет адаптивно распределяется. Отдельное внимание уделено шуму: в процессе обучения в среды намеренно вводятся различные типы и уровни искажений, интенсивность которых постепенно растет. Это позволяет модели сохранять стабильность и демонстрировать более высокие результаты в любых агентных условиях по сравнению с обучением в “стерильных” средах.

Дополнительно реализован режим интенсивного мышления, в котором решение сложных задач разделяется на этап параллельного поиска нескольких траекторий и этап итеративного обобщения. Такой подход масштабирует одновременно ширину и глубину рассуждений и усиливается отдельным этапом обучения с подкреплением, направленным на развитие способности к синтезу решений.

В математических рассуждениях с инструментами LongCat демонстрирует уровень топ-класса. На AIME-25 он достигает 99.6% в стандартном режиме и 100% в Heavy Thinking, фактически выходя на потолок бенчмарка и равняясь с Kimi-K2, Claude Opus 4.5 и GPT-5.2. На IMO-AnswerBench и AMO-Bench LongCat стабильно выше DeepSeek и Qwen, но все еще немного уступает коммерческим моделям Gemini 3 Pro и Claude Opus 4.5.

Ключевое отличие проявляется в агентных сценариях. В BrowseComp LongCat показывает 56.6 / 73.1 (без и с контекст-менеджментом), что выше DeepSeek и GLM-4.7 и сопоставимо с GPT-5.2, а в BrowseComp-zh он выходит на 69.0 / 77.7, опережая все открытые аналоги. В RW Search LongCat набирает 79.5, уступая только GPT-5.2 (82.0), но значительно превосходя Qwen3-235B и Kimi-K2.

В использовании агентных инструментов разрыв еще заметнее. Средний балл LongCat — 88.2, что выше DeepSeek (80.6), Qwen3-235B (59.3) и сопоставимо с Gemini 3 Pro (90.7), а в сценариях с неблагоприятными агентскими факторами LongCat показывает лучший результат среди всех моделей в таблице — 67.1, обходя даже GPT-5.2 и коммерческие решения. Аналогичная картина наблюдается на VitaBench и VitaBench-Noise, где LongCat стабильно выше всех открытых конкурентов и близок к Claude и Gemini.

Производительность модели LongCat-Flash-Thinking-2601
Производительность модели LongCat-Flash-Thinking-2601 в сравнении с топовыми ИИ-моделями. Источник: Hugging Face.

Выводы

LongCat-Flash-Thinking-2601 — это шаг от универсальных thinking-моделей к практико-ориентированным агентным сценариям. Комбинация MoE-архитектуры, масштабирования сред, мультисредового RL, эффективной работы даже в критических условиях и режима интенсивного мышления делает модель особенно сильной в реальных сценариях использования топовой китайской LLM.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)