Alibaba представила Qwen3.6-35B-A3B — новая открытая MoE-модель от китайского ИИ-гиганта

17.04.2026

~ 2 мин

Простой

Новости

Введение

Alibaba официально открыла исходный код своей флагманской ИИ-модели Qwen3.6-35B-A3B — первой открытой версии LLM в семействе Qwen3.6. Это продолжение февральского релиза серии Qwen3.5, и новинка, по заявлениям разработчиков, создавалась с прицелом на максимальную стабильность в продакшене, интуитивно понятное кодирование и высокую отзывчивость в реальных сценариях. Модель построена по архитектуре Mixture-of-Experts (MoE) с общим числом параметров в 35 миллиардов и 3 миллиардов активных параметров. Это позволяет добиться производительности, сопоставимой с гораздо более тяжелыми решениями, оставаясь при этом доступной для локального запуска на обычном железе.

Подробнее о Qwen3.6-35B-A3B

Главная инновация Qwen3.6-35B-A3B — комбинация линейного внимания Gated DeltaNet (используется в 75% слоев) и стандартного Gated Attention (в 25% слоев). Такой гибрид резко снижает вычислительные затраты на длинных последовательностях контекста, сохраняя при этом способность модели держать в памяти полный контекст. Среди 256 экспертов на каждый слой активируется 8 маршрутизируемых плюс 1 общий, что дает примерно 3 миллиардов активных параметров. Еще одна сильная сторона Qwen3.6-35B-A3B — работа с большими объемами информации. Нативно модель поддерживает 262 144 токена контекста, а с включением метода YaRN этот лимит расширяется до 1 010 000 токенов. Благодаря этому пользователи смогут загружать целые репозитории, не прибегая к сегментации данных.

Цифры говорят сами за себя. На SWE-bench Verified модель набирает 73.4%, опережая Gemma4-31B более чем на 21 процентный пункт (52.0%) и уверенно обходя прямого предшественника Qwen3.5-35B-A3B (70.0%). В SWE-bench Pro — 49.5% против 44.6% у прошлой версии. На Terminal-Bench 2.0 результат 51.5% — существенно выше, чем у Gemma4-31B (42.9%) и Qwen3.5-35B-A3B (40.5%). Примечательно, что эти показатели достигаются моделью, которая весит в активном режиме всего 3B параметров. Для сравнения: Qwen3.5-27B — это плотная модель, у которой все 27B активны постоянно, и по многим метрикам новая MoE-версия ее опережает, будучи в 9 раз легче по вычислительным требованиям.

ИИ-производительность модели Qwen3.6-35B-A3B. Источник: X.

Qwen3.6-35B-A3B — нативно мультимодальная модель. Она умеет работать с текстом, изображениями и видео одновременно, обрабатывая до 224K видеотокенов (примерно час видео). На бенчмарке VideoMMU модель набрала 83.7% — лучший результат в своем классе. В задачах на пространственное понимание и распознавание объектов: RefCOCO — 92.0, ODinW13 — 50.8. По большинству визуально-языковых тестов Qwen3.6-35B-A3B находится на одном уровне с Claude Sonnet 4.5, а в некоторых сценариях даже превосходит его.

Разработчики сделали особый упор на способность модели выполнять роль ИИ-агента в средах разработки. Qwen3.6-35B-A3B обрабатывает фронтенд-воркфлоу и задачи на уровне целого репозитория с большей плавностью и точностью, чем предшественники. Появилась функция Thinking Preservation — возможность сохранять контекст рассуждений из предыдущих сообщений. Это заметно упрощает итеративную разработку: модель помнит, о чем думала раньше, и не тратит токены на повторный анализ одних и тех же проблем.

Модель распространяется под лицензией Apache 2.0. Это означает полную свободу использования, модификации и распространения — как в коммерческих, так и в некоммерческих целях, без ограничений на объем аудитории или сферу применения. В отличие от Llama 3 с ее лимитом в 700 млн активных пользователей в месяц или проприетарных API, запрещающих обработку медицинских данных по HIPAA, Apache 2.0 снимает все юридические барьеры.

Благодаря MoE-архитектуре квантизованная версия модели весит всего 21 ГБ и запускается на обычной потребительской видеокарте вроде RTX 4090 или на MacBook с чипом M5 и 64 ГБ оперативной памяти. Полноценная BF16-версия требует около 8× H100 для оптимальной производительности, но для большинства сценариев разработки достаточно и квантованного варианта. Веса доступны на Hugging Face и ModelScope в форматах Transformers и FP8, совместимы с vLLM, SGLang и KTransformers.

Выводы

Alibaba сделала серьезный шаг, выпустив модель, которая по соотношению “производительность на активный параметр” оставляет позади многие более тяжелые решения. Главный козырь Qwen3.6-35B-A3B — доступность: открытая лицензия, скромные требования к оборудованию, продуманная интеграция с существующими инструментами. Однако не стоит впадать в эйфорию. Модель отлично показывает себя в кодинге и работе с длинным контекстом, но ее работа в более широких сценариях — особенно в задачах, требующих глубоких знаний в специфических доменах или тонкой настройки на корпоративные процессы — еще предстоит изучить сообществу.

Автор:

Serverflow