Qwen-3-Next-80B-A3B: ИИ-модель на новой сверхэффективной архитектуре

11.09.2025

~ 2 мин

3412

Простой

Новости

Введение

Alibaba выпустила новую локальную ИИ-модель Qwen3-Next-80B-A3B на HuggingFace. Передовая нейросеть предлагает новую, оптимизированную архитектуру механизма смешанного внимания Gated DeltaNet + Gated Attention, что обеспечивает значительный прирост пропускной способности при сокращении затрат на развертывание.

Подробнее о Qwen3-Next-80B-A3B

Серия нейросетей Qwen3-Next представляет собой базовые модели нового поколения, специально разработанные для эффективной обработки длинных контекстных окон и работы с большим объемом параметров. Архитектура серии в себя ряд инновационных в решений, направленных на максимизацию производительности при минимальных вычислительных затратах. Гибридный механизм внимания, сочетающий Gated DeltaNet и Gated Attention, обеспечивает эффективное моделирование контекстных зависимостей. Технология High-Sparsity MoE реализует исключительно низкий коэффициент активации (1:50) в экспертных слоях, что значительно сокращает количество операций с плавающей запятой на токен при сохранении общей емкости модели. Многотокеновое прогнозирование (MTP) повышает эффективность предварительного обучения и ускоряет процесс логического вывода модели. Дополнительные оптимизации включают нуль-центрированную нормализацию с уменьшением веса модели, управляемые механизмы внимания и другие усовершенствования для эффективного обучения.

На этой архитектуре была создана модель Qwen3-Next-80B-A3B с открытым исходным кодом, содержащая 80 миллиардов параметров при активации лишь 3 миллиардов, что демонстрирует исключительный уровень разреженности и эффективности. Благодаря обновленной, сверхэффективной архитектуре, модель превосходит Qwen3-32B в задачах, требующих обработки больших объемов данных, при этом обеспечивая 10-кратное сокращении затрат на развертывание. Кроме того, Qwen3-Next-80B-A3B обеспечивает 10-кратное увеличение пропускной способности при выводе по сравнению с Qwen3-32B при обработке контекстов длиной свыше 32 000 токенов.

Выводы

Похоже, что Alibaba решила провести марафон выпуска новых, высокоэффективных ИИ-моделей семейства Qwen3 — ранее компания представила локальную нейросеть Qwen3-ASR-Flash для распознавания, а также облачную Qwen3-Max-Preview. Возможно, Alibaba активизировала политику экспансии на рынок ИИ, перехватывая первенство у DeepSeek, стагнирующих на фоне дефицита ИИ-ускорителей.

Автор:

Serverflow