Обзор на Ministral 3 и Mistral Large 3: гайд по всему семейству новой версии французской нейросети

05.12.2025

~ 23 мин

3340

Средний

Статьи

Введение

Mistral 3 – это не новая нейросеть «с нуля», а эволюция семейства, которое многие из вас уже знают. О предыдущем поколении можно вспомнить здесь. Новый релиз от 2 декабря 2025 года стал заметным шагом вперед, сразу привлек внимание индустрии.

Перед вами – открытое мультимодальное семейство, способное работать и с текстом, и с изображениями, уверенно чувствующее себя в десятках языков и масштабируемое от компактных edge-решений до крупных корпоративных систем.

Линейка делится на две ветви: легкие Ministral 3 (3B, 8B и 14B) и флагманскую модель Mistral Large 3. У Large версии – MoE-архитектура с параметрами 41B active / 675B total (в других подсчетах 39B / 673B + vision encoder 2.5B). Контекст – 256K токенов, лицензия Apache 2.0. Ministral используют плотную архитектуру, компактный vision encoder на 0.4B и тот же расширенный контекст.

Флагман обучали на кластере из примерно трех тысяч GPU NVIDIA H200 – и это отражается в качестве. Для пользователя это значит одно: перед нами не просто очередная итерация, а действительно новое поколение открытых моделей.

Дальше в обзоре разберем состав семейства, архитектурные особенности, требования к запуску, реальные возможности и место Mistral 3 на фоне конкурентов.

Состав семейства – какие модели вышли и как их считать

Семейство Mistral 3 на первый взгляд кажется простым, но внутри у него четкая структура. Чтобы вам было легче ориентироваться, разберем все по порядку.

Верхнюю точку линейки занимает Mistral Large 3 – флагман с архитектурой MoE и крупным vision-encoder’ом на 2.5B параметров. Это тяжелая модель для серьезных нагрузок, где важны масштаб, глубина рассуждений и возможность держать огромный контекст.

Ниже расположена серия Ministral 3, и именно она формирует основную массу открытых моделей. В линейку входят три размера – 3B, 8B и 14B. Ministral 3 доступны в Base/Instruct/Reasoning (в сумме 9 моделей). Mistral Large 3 выпущен в Base и Instruct; reasoning-версия заявлена позже. Если суммировать, получается девять полностью открытых моделей, доступных для локального развертывания и кастомизации. Плюс к ним – флагман Large 3.

У Ministal общий характер тоже понятен. Это плотные dense-модели – разработчики отказались от MoE, чтобы не перегружать архитектуру и сохранить предсказуемое поведение на edge-железе. Vision-часть здесь компактная: encoder всего на 0.4B, что снижает требования к памяти и ускоряет вывод.

Флагман Large устроен иначе. Это полноценная MoE-архитектура с выбором экспертов на каждом слое, рассчитанная на большие кластеры и высокие нагрузки. Vision-encoder в разы крупнее, чем у младших моделей – 2.5B параметров, что заметно повышает качество анализа изображений.

Если собрать все в единую картину, то Mistral 3 выглядит как продуманная линейка: легкие dense-модели для локального использования, плюс мощный MoE-флагман для корпоративных сценариев. Такое разделение дает вам свободу выбора – от компактных решений до полноценного high-end уровня.

Требования для развертывания Mistral 3

Чтобы вам не приходилось пересчитывать объемы вручную, ниже – ориентиры по памяти для весов (без учёта KV-cache). Реальные требования зависят от контекста, batch size и движка.

Ministral 3B

Карточка модели Ministral 3B на HuggingFace. Источник: HuggingFace.

Самая компактная модель в семействе. Она рассчитана на локальные сценарии, не требует специального железа и по ресурсам ощущается почти «карманной». Ниже – ориентировочные цифры, которые помогут вам оценить реальные требования.

В квантизации Q4K-M для llama.cpp модель занимает примерно 2.2 GB. Этого достаточно, чтобы запускать ее даже на слабых устройствах – вплоть до некоторых мини-ПК (технически возможно и на смартфонах через специальные сборки, но с ограничениями по скорости и контексту).

Если вы работаете в формате FP8, потребление вырастает до 4.5 GB. FP8-чекпойнты в первую очередь рассчитаны на Hopper/Blackwell (и совместимый стек); на массовых GPU чаще используют BF16/FP16 или 4-битные кванты.

В BF16 модель требует около 10 GB. Здесь понадобится чуть более серьезное железо, но все еще без перегибов: ноутбук с 12–16 GB VRAM или любая десктопная карта среднего класса справится без проблем.

Ministral 3B – идеальный вариант, если вам нужен легкий локальный ассистент, быстрый запуск и максимальная доступность.

Ministral 8B

Карточка модели Ministral 8B на HuggingFace. Источник: HuggingFace.

Это уже «средний класс» линейки: заметно мощнее 3B, но все еще комфортно запускается на обычных пользовательских видеокартах. Она подходит тем, кто хочет получить более высокое качество вывода, не переходя на серверный уровень.

Точные требования выглядят так:

Q4K-M: примерно 5.2 GB VRAM – модель без труда работает на широком спектре домашних GPU;
FP8: около 11 GB – оптимальный режим для настольных ПК с видеокартами на 12–16 GB (с оговоркой на поддержку FP8);
BF16: около 21 GB – потребуется старшая потребительская GPU или single-GPU сервер начального уровня.

Модель 8B хорошо подходит как универсальная модель для разработки, локальных ассистентов, экспериментов с RAG и мультимодальностью без перегрузки железа.

Ministral 14B

Карточка модели Ministral 14B на HuggingFace. Источник: HuggingFace.

Старшая модель среди компактных вариантов, и по качеству она уже ощутимо приближается к крупным системам. При этом ее все еще можно запустить локально, если у вас есть достаточно мощная видеокарта.

Точные требования для запуска:

Q4K-M: примерно 8.24 GB VRAM – модель уверенно работает даже на продвинутых домашних GPU;
FP8: около 16 GB – это уровень видеокарт RTX 4080/4090 или серверных A-чипов начальной конфигурации (с оговоркой на поддержку FP8);
BF16: около 32 GB – такой режим уже требует single-GPU сервера или профессионального ускорителя.

Ministral 14B – хороший выбор, если вам нужен высокий уровень качества, стабильность вывода и полноценная работа с длинными контекстами без перехода к тяжелым MoE-моделям.

Mistral Large 3

Карточка модели Mistral 3 Large на HuggingFace. Источник: HuggingFace.

Это уже не локальная модель, а полноценный корпоративный флагман, который требует инфраструктуру уровня дата-центра. В формате FP16 ему нужно около 1.35 TB видеопамяти, что автоматически выводит запуск за пределы любых одиночных GPU.

В FP8 требования снижаются, но остаются серьезными – примерно 682 GB VRAM, и даже такой объем доступен только на распределенных кластерных конфигурациях. Наиболее компактный вариант – NVFP4, где потребление уменьшается до 403 GB, однако это все равно инфраструктурный уровень с множеством GPU и быстрыми межсоединениями. Зато оптимизированный NVFP4-чекпойнт заявлен как запускаемый на одном узле 8×A100/8×H100.

Эта модель изначально создавалась для серверов с H100/H200 или новыми B-сериями, и ее запуск подразумевает распределенный inference. Для локальных систем Large 3 попросту не предназначен – она существует как инструмент для компаний, которым нужны RAG-платформы, сложные аналитические сценарии и высоконагруженные агентные цепочки.

Выводы

Из требований становится ясно: локально вы сможете запускать только модели серии Ministral. Они рассчитаны на обычные видеокарты и даже на компактные устройства – все зависит от выбранного формата и объема VRAM.

Серия Large – совсем другой уровень. FP16-веса Large 3 требуют порядка 1.35 TB суммарной VRAM, поэтому это минимум multi-GPU/multi-node. Зато оптимизированный NVFP4-чекпойнт заявлен как запускаемый на одном узле 8×A100/8×H100. Это не прихоть, а следствие масштаба MoE-архитектуры и огромного числа параметров.

Если вы работаете с Large-моделями, оптимальные ускорители хорошо известны: A100, H100, H200, B200 и B300. Они дают необходимую пропускную способность и объем памяти, без которых вывод просто не состоится.

Ministral же остается доступной для широкой аудитории. Потребительские GPU Nvidia и AMD подходят отлично, и единственный критерий, на который стоит смотреть, – объем видеопамяти. Чем она больше, тем более «тяжелый» формат модели можно позволить.

Архитектура – что внутри и почему это важно

Архитектура Mistral 3 – ключ к тому, почему это семейство так заметно выделяется на фоне других open-weight моделей. Здесь сочетаются два подхода: плотные компактные сети для edge-сценариев и крупная MoE-архитектура, способная масштабироваться до экстремальных нагрузок.

Разработчики явно стремились охватить весь спектр применений – от локального ассистента на ноутбуке до распределенного корпоративного кластера. Чтобы понять, как это получилось, ниже разберем MoE-механику Large-версии и особенности dense-моделей Ministral.

MoE «granular mixture-of-experts»: как работает и что означают 41B active

Схематичное изображение MoE-архитектуры. Источник: Symbl.Ai.

В основе Large 3 лежит MoE-архитектура – механизм, который позволяет модели быть одновременно огромной и при этом экономной в вычислениях. Полный объем параметров Large 3 – 675B, но это не значит, что при каждом запросе задействуются все слои и все эксперты. В реальности работают лишь те части, которые нужны для конкретной задачи.

Отсюда и цифра 41B active – это количество параметров, реально участвующих в расчете одного прохода. Остальные «спят», пока не потребуется их специализация. Такой выбор экспертов делает модель гибкой и быстрой: она не распыляет ресурсы, а подключает только тех «специалистов», которые подходят под текущий запрос. Отличная аналогия – консультация в большой компании: вы не зовете весь штат, вам нужен один конкретный эксперт.

По данным NVIDIA, в каждом слое Large 3 работает порядка 128 экспертов. Маршрутизатор выбирает нескольких из них, и именно они формируют ответ. Поэтому 675B – это максимальный возможный объем, «энциклопедия возможностей», а 41B active – реальное число параметров, участвующих в вычислении в конкретный момент.

Так MoE дает эффект: гигантская модель, но с ценой вычислений среднего размера. Совмещение мощности и эффективности – именно то, что позволяет Large 3 конкурировать с системами уровня OpenAI и Google, оставаясь открытой.

Почему Ministral – это Dense-модели и чем они удобны для edge

Ministral 3 создавались с другой задачей: компактность, стабильность и предсказуемость поведения на массовом железе. Поэтому здесь используется классическая dense-архитектура, где все параметры активны всегда. В отличие от MoE, dense-модели не переключают экспертов – вычисления идут ровным фронтом по всей сети.

У такого подхода есть свои сильные стороны:

Легко запускать локально. Dense-модели проще оптимизировать под ноутбуки, настольные GPU и даже мобильные устройства.
Предсказуемая производительность. Пиковых скачков почти нет: вычислительная нагрузка равномерная.
Стабильность на edge-устройствах. Даже ограниченные GPU ведут себя предсказуемо, что важно для локальных ассистентов и офлайн-сценариев.

Но есть и ограничения: dense-архитектуры хуже масштабируются вверх. Добавление параметров напрямую увеличивает вычислительную стоимость, поэтому создавать 600-миллиардную dense-модель просто нереалистично.

Для визуальных задач Ministral оснащены компактным vision encoder’ом на 0.4B параметров. Он легче, меньше и гораздо менее требователен к памяти, чем 2.5-миллиардный энкодер у Large 3. Это еще один шаг в пользу edge-сценариев: меньше ресурсов – больше гибкости при развертывании.

Возможности моделей

Процесс работы Ministral 3 3B в LM Studio. Модель запущена на AMD Radeon VII 16GB HBM2.

Семейство предлагает не просто набор нейросетей разных размеров – это гибкая система, где возможности самих моделей дополняются инструментами и инфраструктурой, которая вокруг них быстро формируется.

Важно разделять то, что умеют сами модели (мультимодальность, многоязычность, длинный контекст) и то, что дает платформа – экосистема фреймворков, движков и серверов, которые уже внедрили поддержку Mistral 3. Ниже разберем ключевые способности моделей и то, как они проявляют себя в реальных сценариях.

Мультимодальность: что умеют vision-версии

Мультимодальные версии Mistral 3 уверенно работают с изображениями и документами, предлагая широкий спектр применений. Они не заменяют узкоспециализированные CV-модели, но в задачах общего назначения показывают себя достаточно гибко и надежно.

Основные сценарии, где vision-версии чувствуют себя уверенно:

Анализ скриншотов. Интерфейсы, ошибки, панели настроек, структура страниц – модель понимает и текст, и визуальный контекст.
Работа с документами. Распознавание структуры, логики блоков, извлечение ключевой информации.
Фото. Описание, классификация, поиск объектов, базовый визуальный анализ.
PDF-страницы. Чтение таблиц, заголовков, многоуровневых блоков, работа с реальными макетами.
Карточки товара. Извлечение характеристик, сравнение вариантов, анализ изображений для e-commerce.

Важно понимать: vision-компонент в Mistral 3 – универсальный, а не специализированный. Он уступает отдельным CV-моделям в точности на сложных задачах, но выигрывает в гибкости – особенно когда картинка становится частью многошагового размышления.

Многоязычность: сильная сторона «не только EN/ZH»

Одно из самых заметных преимуществ Mistral 3 – уверенная работа более чем с 40 языками, а не только с английским и китайским, как у многих крупных моделей. Это делает семейство особенно удобным для международных проектов, локальных ассистентов и систем, которые должны понимать пользователей вне глобальных языковых центров.

Русский язык также поддерживается, и качество на нем стало заметно лучше по сравнению с ранними версиями. Но обещать «идеального» уровня было бы неправильно: у каждой задачи свои нюансы.

Лучший способ оценить работу – проверять модель на конкретных примерах, близких к вашему сценарию. В одних случаях она выдает очень чистый и связный текст, в других может потребовать дополнительной настройки или уточнений.

Сильная сторона Mistral 3 – широта покрытия. Это не модель, зажатая между EN и ZH, а инструмент, который уверенно работает в многоязычном окружении и адаптируется под разные регионы.

Длинный контекст 256K – что это меняет

Поддержка контекста в 256K токенов – одно из тех улучшений, которое меняет не только качество работы модели, но и сам подход к построению решений. Такой объем позволяет загружать в модель не куски данных, а целые массивы информации, работая с ними напрямую, без агрессивного дробления и пересборки.

В практических сценариях длинный контекст раскрывается особенно ярко:

RAG. Модель может держать в памяти большие фрагменты базы знаний, анализировать их целиком и строить более точные ответы.
Юридические документы. Многостраничные договоры, приложения и пакеты нормативных актов обрабатываются как единое целое, без потери контекста.
Многостраничные спецификации. Технические требования, стандарты, описания API – все это можно загружать полностью.
Агентные пайплайны. Модель удерживает историю reasoning-процессов, инструкции и промежуточные выводы на больших дистанциях.
Большие переписки и истории запросов. Диалог не обрывается логически, модель помнит детали, связи и корректно возвращается к старым темам

Такой контекст превращает Mistral 3 в инструмент, который можно использовать не только для коротких вопросов, но и для полноценной работы с большими, сложными корпусами данных.

Бенчмарки и LMArena – какие результаты у Mistral 3?

Бенчмарки Mistral Large 3 в LMArena в сравнении с топовыми ИИ-моделями (Qwen3-VL, DeepSeek-V3.2 и Kimi-K2). Источник: Mistral AI.

Появление Mistral 3 быстро отразилось на публичных лидербордах – в частности, на LMArena, где модели сравнивают в равных условиях и по широкому набору задач. На момент анонса (2 декабря 2025 года) представители семейства уверенно расположились в верхней части таблицы в категории открытых моделей (OSS).

Особенно заметен рост позиций у вариантов Ministral 14B Instruct и Ministral 14B Reasoning, которые в некоторых тестах обгоняют модели большего размера от других разработчиков.

Флагман Mistral Large 3 также попал в число лидеров OSS-сегмента и по ряду метрик приближается к закрытым системам уровня GPT-4.1 и Gemini Ultra. Он не занимает абсолютный пьедестал – но разрыв между open-weight и закрытыми моделями стал минимальным за всю историю подобных сравнений.

Важно учитывать, что лидерборды LMArena динамические. Позиции меняются буквально каждую неделю: модели дообучаются, появляются новые версии, растет конкуренция. Но общий тренд очевиден: релиз Mistral 3 заметно перетасовал расклад сил, усилив позиции открытой экосистемы и зафиксировав присутствие Европы в верхнем сегменте мирового AI-рынка.

Заключение

Релиз Mistral 3 стал большим шагом вперед не только для компании, но и для всей индустрии открытых моделей. Это тот случай, когда ожидания комьюнити полностью оправдались: модели Mistral всегда были желанными, их ждали, о них спорили, они задавали направление рынка – и новое поколение продолжило эту традицию.

Появление столь сильного open-weight решения, созданного не в США и не в Китае, стало важным сигналом: глобальная гонка ИИ становится более сбалансированной, и монополия одних игроков постепенно ослабевает.

С такой скоростью интеграции, уровнем зрелости и вниманием комьюнити Mistral 3 буквально обречен на успех. Это один из самых значимых релизов года, который укрепил позиции Европы в мировом AI-ландшафте, расширил выбор для бизнеса и разработчиков и показал: будущее открытых моделей – конкурентное, живое и многополярное.

Автор:

Serverflow