Релиз Qwen3-Max: чистая мощь китайской ИИ-индустрии

24.09.2025

~ 2 мин

2851

Простой

Новости

Введение

Компания Alibaba представила свой магнум опус в области разработки LLM — языковую модель Qwen3-Max, которая является самым мощным и многофункциональным решением в семействе нейросетей Qwen. Модель Qwen3-Max продемонстрировала высочайшую производительность, заняв третье место в рейтинге Text Arena и опередив передовую GPT-5.

Подробнее о Qwen3-Max

Qwen3-Max значительно превосходит своих предшественников в области программирования и агентских возможностей, а также модель смогла занять пальму первенства в широком списке бенчмарков, включая проверку знаний, логические рассуждения, кодинг, следование инструкциям, понимание языков, нативность и в других задачах. В настоящее время Qwen3-Max имеет три разные конфигурации: Qwen3-Max-Base, Qwen3-Max-Instruct и Qwen3-Max-Thinking, специализирующиеся на выполнении разных типов операций.

Модель Qwen3-Max-Base, насчитывающая свыше 1 триллиона параметров, была предварительно обучена на 36 триллионах токенов данных. Нейросеть базируется на оптимизированной архитектуре MoE, включает предложенную функцию уменьшения потери точности при балансировке глобальной пакетной нагрузки LLM и использует многоуровневую стратегию параллелизма, что позволило на 30% увеличить эффективность обучения Qwen3-Max-Base в сравнении с Qwen2.5-Max-Base. Для поддержки длинного контекстного окна в 1 миллион токенов использовался метод ChunkFlow, который в три раза увеличил пропускную способность нейросети. Также при разработке задействовали такие технологии, как SanityCheck и EasyCheckpoint, которые позволили в 5 раз сократить простои оборудования во время аппаратных сбоев внутри кластера.

Qwen3-Max-Instruct на третьем месте в Text Arena

Qwen3-Max-Instruct заняла третье место в бенчмарке Text Arena. Источник: Qwen.

Предварительная версия Qwen3-Max-Instruct смогла занять третье место в рейтинге лучших текстовых ИИ-моделей LMArena. Официальный релиз дополнительно укрепил позиции модели, особенно в области программирования и агентских возможностей. В бенчмарке SWE-Bench Verified, ориентированном на решение практических задач программирования, Qwen3-Max-Instruct показала впечатляющий результат в 69.6 баллов, войдя в число ведущих ИИ-моделей в мире. На платформе Tau2-Bench, предназначенной для тщательной оценки навыков использования инструментов ИИ-агентами, модель установила рекордный показатель в 74.8 балла, превзойдя Claude Opus 4 и DeepSeek V3.1. Модель Qwen3-Max-Instruct уже доступна для работы в Qwen Chat, а также поддерживается API-интеграция.

Результаты тестирования Qwen3-Max-Instruct

Результаты тестирования ИИ-модели Qwen3-Max-Instruct. Источник: Qwen.

Модель Qwen3-Max-Thinking, ориентированная на задачи логического вывода, демонстрирует высочайший показатель производительности. Интеграция с интерпретатором кода и применение методов масштабируемых вычислений в процессе тестирования обеспечили ей беспрецедентные возможности в решении сложных задач. В частности, модель показала 100% результат в сложных тестах на математическое мышление AIME 25 и HMMT. В настоящее время модель находится на стадии активного обучения, и ее публичный релиз ожидается в ближайшем будущем.

Результаты тестирования Qwen3-Max-Thinking

Результаты тестирования ИИ-модели Qwen3-Max-Thinking. Источник: Qwen.

Выводы

Как и ожидалось, модели Qwen3-Max смогли продемонстрировать революционную производительность в топовых ИИ-бенчмарках, а в некоторых тестах они даже превзошли передовую нейросеть GPT-5. Этот релиз свидетельствует о том, что компания Alibaba может вполне успешно забрать пальму первенства у компании DeepSeek, которая делает лишь минорные обновления своего семейства LLM ввиду нехватки вычислительной мощности на разработку DeepSeek R2, в то время как конкурент активно выпускает целые наборы ИИ-моделей почти ежедневно.

Автор:

Serverflow