Top.Mail.Ru
Qwen 3 — новая версия передовой LLM от Alibaba | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение
Qwen 3 — новая версия передовой LLM от Alibaba

Автор:

Qwen 3 — новая версия передовой LLM от Alibaba

Передовая нейросеть от Alibaba Qwen 3 вышла и доступна для локальной установки.

Введение 29 апреля 2025 года компания Alibaba  представила новейшую языковую модель. Разработчики заявляют, что Qwen 3 превосходит DeepSeek R1, ChatGPT o1 и o3-mini, Grok-3 и Gemini 2.5 Pro в различных бенчмарках. При этом, Qwen 3 очень компактна и имеет всего лишь 235 миллиардов параметров у старшей модели. Особенности Qwen 3 В семейство новейших LLM Qwen 3 вошли модели на архитектуре Dense и MoE — в первая ветка включает нейросети с 0.6, 1.7, 4, 8, 14, 32 миллиардов параметров, а во вторую ветку входят нейросети A3B с 30 миллиардов параметров и A22B с 235 миллиардов параметров (активные только 3 или 22 миллиардов параметров соответственно). Все представленные нейросети гибридные, поэтому они могут работать как в стандартном режиме, так и в режиме размышления. Примечательно, что нейросети Qwen 3 поддерживают свыше 119 языков (включая русский язык) и различные редкие диалекты. Судя по бенчмаркам, Qwen3-30B-A3B занимает почти тот же размер, что и Gemma3-27B, но при этом  работает быстрее благодаря большему количеству активных параметров, что позволяет ее запустить китайскую нейросеть даже на CPU с хорошей скоростью. Помимо этого, Qwen3-30B-A3B во всех бенчмарках превосходит DeepSeek V3 и GPT-4o. Результаты бенчмарков производительности Qwen3-30B-A3B. Источник: AlibabaCloud. В свою очередь, старшая модель Qwen3-235B-A22B по результатам бенчмарков превосходит передовую языковую модель от Meta* LLama* 4 Maverick 402B-A17B, при этом имея практически в 2 раза меньше количество параметров. Сравнение производительности Qwen3-235B-A22B с предыдущими версиями Qwen и нейросетью LLama* 4 Maverick 402B-A17B. Источник: AlibabaCloud. Также платформе для соревнований в кодинге Codeforces старшая модель Qwen 3-235B-A22B опережает GPT-o3-mini и Gemini 2.5 Pro. Китайская нейросеть DeepSeek R1 тоже оказалась неконкурентоспособна в сравнении с Qwen 3 — новейшая LLM от Alibaba превосходит своего отечественного конкурента во всех параметрах. Особенно сильно DeepSeek R1 отстает в бенчмарке BFCL v3 (на 13,9 баллов) для оценки вызова функций, а также в тесте AIME 2025 (на 11,5 баллов) для оценки математических навыков. Производительность моделей Qwen 3 в сравнении с моделями конкурентов. Источник: AlibabaCloud. Кроме того, нейросети Qwen 3 позволяют настраивать функцию Thinking Budget, благодаря которой можно установить количество токенов мышления, которые модель может использовать при генерации ответа. Для обучения новейших языковых моделей Qwen 3 использовался набор данных из 36 триллионов токенов — в базу знаний вошли учебники, пары вопросов и ответов, фрагменты кода, блоки данных, сгенерированные через ИИ и прочая информация. Как заявляет компания Alibaba, именно благодаря использованию расширенного набора данных и обучения, а также применения архитектуры MoE, разработчикам удалось добиться высочайшей производительности и значительно опередить производительность Qwen 2,5 Max. Стоит отметить, что новейшие модели от OpenAI GPT-o3 и GPT-o4-mini все же сохранили свое звание самых производительных LLM, однако, это не делает нейросети Qwen 3 менее эффективными.  Модели Qwen 3 уже доступны для локальной установки через платформы Hugging Face, GitHub, Ollama и LM Studio. Выводы Qwen 3 определенно можно назвать началом нового этапа восхождения китайских LLM, которые вновь обойдут по производительности все западные языковые модели. Несмотря на то, что Qwen 3 все-таки не смогла обойти новейшие модели от OpenAI, открытый исходный код и полностью бесплатное использование китайской нейросети делает ее более привлекательной как для местных пользователей КНР, так и для мирового сообщества. Стоит отметить, что прошлая флагманская модель Qwen 2.5 Max вышла через неделю после выпуска DeepSeek R1, можно предположить, что в этот раз китайские разработчики снова кооперируются и выпустят новую версию DeepSeek R2 уже в ближайшее время, что можно также сопоставить с недавними слухами о скором выходе передовой китайской LLM. *LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена **Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Qwen 3 — новая версия передовой LLM от Alibaba

~ 2 мин
1301
Простой
Новости
Qwen 3 — новая версия передовой LLM от Alibaba

Введение

29 апреля 2025 года компания Alibaba  представила новейшую языковую модель. Разработчики заявляют, что Qwen 3 превосходит DeepSeek R1, ChatGPT o1 и o3-mini, Grok-3 и Gemini 2.5 Pro в различных бенчмарках. При этом, Qwen 3 очень компактна и имеет всего лишь 235 миллиардов параметров у старшей модели.

Особенности Qwen 3

В семейство новейших LLM Qwen 3 вошли модели на архитектуре Dense и MoE — в первая ветка включает нейросети с 0.6, 1.7, 4, 8, 14, 32 миллиардов параметров, а во вторую ветку входят нейросети A3B с 30 миллиардов параметров и A22B с 235 миллиардов параметров (активные только 3 или 22 миллиардов параметров соответственно). Все представленные нейросети гибридные, поэтому они могут работать как в стандартном режиме, так и в режиме размышления. Примечательно, что нейросети Qwen 3 поддерживают свыше 119 языков (включая русский язык) и различные редкие диалекты. Судя по бенчмаркам, Qwen3-30B-A3B занимает почти тот же размер, что и Gemma3-27B, но при этом  работает быстрее благодаря большему количеству активных параметров, что позволяет ее запустить китайскую нейросеть даже на CPU с хорошей скоростью. Помимо этого, Qwen3-30B-A3B во всех бенчмарках превосходит DeepSeek V3 и GPT-4o.

Производительность Qwen3-30B-A3B
Результаты бенчмарков производительности Qwen3-30B-A3B. Источник: AlibabaCloud.

В свою очередь, старшая модель Qwen3-235B-A22B по результатам бенчмарков превосходит передовую языковую модель от Meta* LLama* 4 Maverick 402B-A17B, при этом имея практически в 2 раза меньше количество параметров.

Сравнение производительности Qwen3-235B-A22B с конкурентами
Сравнение производительности Qwen3-235B-A22B с предыдущими версиями Qwen и нейросетью LLama* 4 Maverick 402B-A17B. Источник: AlibabaCloud.

Также платформе для соревнований в кодинге Codeforces старшая модель Qwen 3-235B-A22B опережает GPT-o3-mini и Gemini 2.5 Pro. Китайская нейросеть DeepSeek R1 тоже оказалась неконкурентоспособна в сравнении с Qwen 3 — новейшая LLM от Alibaba превосходит своего отечественного конкурента во всех параметрах. Особенно сильно DeepSeek R1 отстает в бенчмарке BFCL v3 (на 13,9 баллов) для оценки вызова функций, а также в тесте AIME 2025 (на 11,5 баллов) для оценки математических навыков.

Сравнение производительности Qwen3 с конкурентами
Производительность моделей Qwen 3 в сравнении с моделями конкурентов. Источник: AlibabaCloud.

Кроме того, нейросети Qwen 3 позволяют настраивать функцию Thinking Budget, благодаря которой можно установить количество токенов мышления, которые модель может использовать при генерации ответа.

Для обучения новейших языковых моделей Qwen 3 использовался набор данных из 36 триллионов токенов — в базу знаний вошли учебники, пары вопросов и ответов, фрагменты кода, блоки данных, сгенерированные через ИИ и прочая информация. Как заявляет компания Alibaba, именно благодаря использованию расширенного набора данных и обучения, а также применения архитектуры MoE, разработчикам удалось добиться высочайшей производительности и значительно опередить производительность Qwen 2,5 Max. Стоит отметить, что новейшие модели от OpenAI GPT-o3 и GPT-o4-mini все же сохранили свое звание самых производительных LLM, однако, это не делает нейросети Qwen 3 менее эффективными. 

Модели Qwen 3 уже доступны для локальной установки через платформы Hugging Face, GitHub, Ollama и LM Studio.

Выводы

Qwen 3 определенно можно назвать началом нового этапа восхождения китайских LLM, которые вновь обойдут по производительности все западные языковые модели. Несмотря на то, что Qwen 3 все-таки не смогла обойти новейшие модели от OpenAI, открытый исходный код и полностью бесплатное использование китайской нейросети делает ее более привлекательной как для местных пользователей КНР, так и для мирового сообщества. Стоит отметить, что прошлая флагманская модель Qwen 2.5 Max вышла через неделю после выпуска DeepSeek R1, можно предположить, что в этот раз китайские разработчики снова кооперируются и выпустят новую версию DeepSeek R2 уже в ближайшее время, что можно также сопоставить с недавними слухами о скором выходе передовой китайской LLM.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.

Написать отзыв

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)