Xiaomi представила свою новую ИИ-разработку MiMo-V2-Flash — большую языковую модель с открытыми весами, которую китайский ИИ-гигант назвал самой эффективной open-source LLM для задач программной инженерии. Модель ориентирована на сценарии, где одновременно требуются рассуждения, высокая скорость отклика и работа в роли ИИ-агента, а позиционируется новая LLM как оптимальное решение для выполнения рутинных задач кодинга.
Подробнее о MiMo-V2-Flash
MiMo-V2-Flash построена на архитектуре MoE. При общем размере в 309 млрд параметров при запросе активируются лишь 15 млрд, что позволяет существенно снизить вычислительные затраты без потери качества. Дополнительно используется гибридный механизм внимания, сочетающий полное глобальное внимание и скользящее оконное внимание. Эти два режима работают в пропорции 1:5: модель большую часть времени обрабатывает локальный контекст, но регулярно обращается ко всему контекстному окну целиком. Такой подход обеспечивает скорость, близкую к классическому скользящему окну, при точности, почти сопоставимой со стандартным механизмом Attention.
Архитектура MiMo-V2-Flash. Источник: .
Контекстное окно модели достигает 256 тысяч токенов, что позволяет использовать MiMo-V2-Flash в длительных агентных сценариях с сотнями шагов взаимодействия, вызовами внешних инструментов и обработкой больших кодовых баз. Поддерживается гибридный режим мышления, в котором пользователь может переключаться между полноценным режимом рассуждений и форматом быстрых ответов. Модель также способна генерировать полноценные HTML-страницы и поддерживает интеграцию с Claude Code, Cursor и Cline.
За счет архитектурных оптимизаций MiMo-V2-Flash достигает скорости порядка 150 токенов в секунду. Существенную роль в увеличении скорости играет механизм Multi-Token Prediction, при котором модель генерирует сразу несколько токенов параллельно. Эти токены сначала формируются в черновом виде, затем проверяются и включаются в итоговый ответ. В среднем модель предсказывает от 2,8 до 3,6 токенов одновременно, что дает ускорение генерации примерно в 2,0-2,6 раза по сравнению с классическим пошаговым выводом. В облаке Xiaomi модель доступна через API по цене $0,1 за миллион входных токенов и $0,3 за миллион выходных токенов. Помимо этого, MiMo-V2-Flash можно использовать через Hugging Face Playground, Google Cloud AI Studio и собственную платформу Xiaomi для разработчиков.
Стоимость MiMo-V2-Flash в API Xiaomi. Источник: .
На этапе постобучения Xiaomi применила собственный пайплайн Multi-Teacher Online Policy Distillation. В этой схеме ответы обучаемой модели оцениваются сразу несколькими моделями-наставниками в реальном времени. Вместо бинарной оценки «верно или неверно» наставники дают разбор ошибок и рекомендации. При этом сама модель анализирует свои ответы и корректирует поведение, не ограничиваясь заранее заданными сценариями. Такой подход позволяет использовать около 2% вычислительных ресурсов по сравнению с классическими схемами SFT и RL. Помимо этого, при разработке MiMo-V2-Flash использовался метод децентрализации: модель, прошедшая обучение, в дальнейшем может сама выступать в роли наставника, что открывает путь к непрерывному самосовершенствованию эффективности LLM.
По заявлениям Xiaomi, MiMo-V2-Flash заняла первое место среди всех открытых моделей в тестах SWE-Bench Verified и SWE-Bench Multilingual, продемонстрировав уровень, близкий к ведущим закрытым системам. В математическом AIME 2025 и междисциплинарном GPQA-Diamond модель вошла в число двух лучших открытых решений. В SWE-Bench Verified она показала результат 73,4 %, обойдя все открытые аналоги и приблизившись к показателям OpenAI GPT-5-High, а в Multilingual-версии решила 71,7 % задач, подтвердив статус наиболее эффективной открытой модели для разработки ПО.
В агентских операциях нейросеть MiMo-V2-Flash также показала высокие результаты. В τ2-Bench модель набрала 95,3, 79,5 и 66,0 в сложнейших отраслевых задачах, вроде торговли и авиационной терминологии. В тесте BrowseComp она получила 45,4 балла, а при управлении контекстным окном — 58,3. Суммарно модель демонстрирует уровень, который практически не уступает топовым китайским ИИ-моделям K2 Thinking и DeepSeek V3.2 Thinking, а в задачах с длинным контекстом превосходит более крупную K2 Thinking, что подтверждает эффективность архитектуры скользящего окна.
Производительность MiMo-V2-Flash. Источник: .
Выводы
MiMo-V2-Flash — это попытка Xiaomi задать новый ориентир для открытых языковых моделей в программной инженерии. Сочетание архитектуры MoE, гибридного внимания, параллельной генерации токенов и продвинутых методов постобучения позволило создать модель, которая одновременно быстра, экономична и конкурентоспособна с ведущими закрытыми решениями. Доступность весов на и по лицензии MIT и возможность инференса в экосистеме SGLang делают MiMo-V2-Flash значимым вкладом в открытый ИИ и практичным инструментом для разработчиков, работающих с кодом, агентами и длинными контекстами.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.