Alibaba представила Qwen3.5 Small: семейство компактных моделей, не уступающих крупным LLM

02.03.2026

~ 2 мин

Простой

Новости

Введение

Компания Alibaba продолжает расширять семейство ИИ-моделей Qwen3.5 и представила новую линейку компактных нейросетей с открытым исходным кодом Qwen3.5 Small, в которую вошли четыре модели объемом 0,8, 2, 4 и 9 миллиардов параметров. Все они выпущены под лицензией Apache 2.0 и доступны на Hugging Face, ModelScope. Релиз стал заключительным этапом двухволнового анонса: после флагманских решений и моделей среднего размера компания наконец предлагает сообществу легкие версии для локального использования и встраиваемых систем.

Подробнее о Qwen3.5 Small

Все новые модели построены на гибридной архитектуре, сочетающей Gated DeltaNet и Gated Attention в пропорции три к одному. Другими словами, на каждый слой с полным квадратичным вниманием приходится три слоя с линейным, что позволяет эффективно работать с контекстом до 262 тысяч токенов с возможностью расширения до 1 миллиона токенов даже в компактной модели Qwen3.5-9b. Как и более старшие представители семейства, модели Qwen3.5 Small полностью мультимодальны, поскольку пайплайн обучения включал как текстовые данные, так и мультимедийные данные, включая видео, изображения, инфографики, диаграммы и т.д. — юзерам больше не нужно выбирать компромисс между VL-версиями и стандартными LLM, так как распознавание визуальной информации работает из коробки. Нейросети поддерживают 201 язык, включая русский, что расширяет использование нейросетей в отечественных ИИ-экосистемах. Модели доступны в стандартных версиях для развертывания и Base-вариантах для последующего дообучения.

Самые впечатляющие результаты демонстрирует наиболее объемная модель линейки с 9 миллиардами параметров: нейросеть набирает 82,5 балла в бенчмарке MMLU-Pro, что выше показателей флагманской открытой модели OpenAI GPT-OSS-120B (80,8) и нейросети Alibaba Qwen3-30B-A3B с 30 миллиардами параметров (80,9). На сложном бенчмарке GPQA Diamond разрыв еще заметнее — 81,7 против 73,4. В агентных задачах (BFCL-V4, TAU2-Bench) результаты также выходят за рамки типичных для моделей такого размера — 66,1 и 79,1 соответственно. При этом для запуска Qwen3.5-9b достаточно одной видеокарты RTX 3060 или 4060. Модель объемом 4 миллиарда параметров достигает уровня 79,1 в бенчмарке MMLU-Pro, 76,2 баллов в тесте GPQA Diamond и 85,1 в тесте MathVista. Также доступна версия с 2 миллиардами параметров, которая набирает 55.3 в MMLU-Pro и подходит для сценариев пользовательского инференса с железом начального уровня. Самая младшая нейросеть с 0,8 миллиардов параметров ориентирована на периферийные устройства и встраиваемые решения, где важны минимальное энергопотребление и компактность, ввиду чего эта версия неизбежно проигрывает старшим собратьям, набирая всего 29.7 баллов MMLU-Pro.

Производительность ИИ-моделей Alibaba Qwen3.5 Small

Производительность ИИ-моделей Qwen3.5 Small. Источник: X.

Выводы

С выходом компактных моделей Qwen3.5 Alibaba фактически переопределила понятие легкая нейросеть: 9B-версия обгоняет по качеству некоторые 30b-модели и даже 120b-модель от OpenAI, а 4B-модель делает серьёзный AI доступным владельцам массовых игровых видеокарт. Гибридная архитектура с линейным вниманием позволяет удерживать длинный контекст и поддерживать полную мультимодальность без взрывного роста требований к ресурсам. Это не просто пополнение семейства Qwen3.5, а готовый инструментарий для разработчиков, которым нужна производительность на уровне крупных моделей, но в компактном и открытом формате.

Автор:

Serverflow