Mistral Small 4: рассуждение, мультимодальность и кодинг в одном флаконе

18.03.2026

~ 2 мин

Простой

Новости

Введение

Компания Mistral представила Mistral Small 4 — новую открытую ИИ-модель, объединяющую возможности трех флагманских нейросетей Mistral: Magistral для логического вывода, Pixtral для мультимодального восприятия и Devstral для агентного программирования. Теперь пользователям не нужно выбирать между быстрой обучающей моделью, мощным механизмом рассуждений или мультимодальным помощником — все три функции доступны в одном решении Mistral Small 4 с настраиваемой сложностью логического вывода и высокой эффективностью. Модель выпущена под открытой лицензией Apache 2.0 и уже доступна для скачивания на Hugging Face в режимах NVFP4, Eagle и базовой версии, что подтверждает приверженность Mistral принципам открытости и доступности ИИ.

Подробнее о Mistral Small 4

Mistral Small 4 построена на гибридной архитектуре, оптимизированной для общения, написания кода, агентских задач и сложных логических операций. Она поддерживает ввод как текста, так и изображений, что делает ее универсальным инструментом для широкого спектра задач — от анализа документов до визуального анализа. В основе модели лежит архитектура смеси экспертов (Mixture of Experts) со 128 экспертами, из которых только 4 активны при генерации токена. Общее число параметров достигает 119 миллиардов, при этом на один токен приходится 6 миллиардов активных параметров (8 миллиардов с учетом встраиваемых и выходных слоев). Контекстное окно размером 256 тысяч токенов позволяет обрабатывать развернутые взаимодействия и объемные документы без потери связности.

Ключевая особенность модели — настраиваемая сложность рассуждений: пользователь может переключаться между быстрыми ответами с низкой задержкой и подробными выводами, требующими глубоких логических построений. Встроенная мультимодальность обеспечивает поддержку как текстового, так и визуального ввода, открывая возможности для сценариев, где важно одновременно анализировать изображения и сопровождающий их текст.

Сравнение ИИ-производительности Mistral Small 4 с другими моделями семейства Mistral. Источник: Mistral.

В тестах Mistral Small 4 демонстрирует впечатляющие результаты. Время сквозной обработки сокращено на 40% при настройке с оптимизацией задержки, а количество запросов в секунду выросло в три раза по сравнению с Mistral Small 3 при настройке с оптимизацией пропускной способности. Модель показывает конкурентоспособные результаты, не уступая или превосходя GPT-OSS 120B по всем трем тестам, при этом генерируя значительно более короткие ответы. Например, в тесте AA LCR Mistral Small 4 набрала 0,72 балла, используя всего 1600 символов, тогда как моделям Qwen для достижения сопоставимой производительности требуется в 3,5–4 раза больше символов. На платформе LiveCodeBench модель превосходит GPT-OSS 120B, выдавая при этом на 20% меньше результатов, что напрямую влияет на снижение задержки и затрат на логический вывод.

Результаты тестирования ИИ-модели Mistral Small 4. Источник: Mistral.

Для развертывания модели достаточно минимальной инфраструктуры: 4x NVIDIA HGX H100, 2x NVIDIA HGX H200 или 1x NVIDIA DGX B200. Рекомендуемая конфигурация для оптимальной производительности включает 4x NVIDIA HGX H100, 4x NVIDIA HGX H200 или 2x NVIDIA DGX B200. Благодаря тесному сотрудничеству с NVIDIA логический вывод оптимизирован для платформ vLLM и SGLang, обеспечивая эффективную и высокопроизводительную работу в различных сценариях развертывания. Модель имеет полностью открытый исходный код и доступна для развертывания через движки vLLM, llama.cpp, SGLang, HuggingFace Transformers и других платформах.

Выводы

Mistral Small 4 знаменует переход от эпохи специализированных моделей к универсальным решениям, где одна архитектура способна закрывать широкий спектр задач — от логического вывода до мультимодального анализа и программирования. Объединяя возможности трех флагманских разработок в рамках единой модели с открытым исходным кодом, Mistral не только упрощает выбор для разработчиков, но и задает новый стандарт эффективности: сокращение времени обработки на 40% и трехкратный рост числа запросов в секунду при сопоставимом или лучшем качестве результатов.

Автор:

Serverflow