Top.Mail.Ru
Qwen-3-Next-80B-A3B: ИИ-модель на новой сверхэффективной архитектуре | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Qwen-3-Next-80B-A3B: ИИ-модель на новой сверхэффективной архитектуре

~ 2 мин
11
Простой
Новости
Qwen-3-Next-80B-A3B: ИИ-модель на новой сверхэффективной архитектуре

Введение

Alibaba выпустила новую локальную ИИ-модель Qwen3-Next-80B-A3B на HuggingFace. Передовая нейросеть предлагает новую, оптимизированную архитектуру механизма смешанного внимания Gated DeltaNet + Gated Attention, что обеспечивает значительный прирост пропускной способности при сокращении затрат на развертывание.

Подробнее о Qwen3-Next-80B-A3B

Серия нейросетей Qwen3-Next представляет собой базовые модели нового поколения, специально разработанные для эффективной обработки длинных контекстных окон и работы с большим объемом параметров. Архитектура серии в себя ряд инновационных в решений, направленных на максимизацию производительности при минимальных вычислительных затратах. Гибридный механизм внимания, сочетающий Gated DeltaNet и Gated Attention, обеспечивает эффективное моделирование контекстных зависимостей. Технология High-Sparsity MoE реализует исключительно низкий коэффициент активации (1:50) в экспертных слоях, что значительно сокращает количество операций с плавающей запятой на токен при сохранении общей емкости модели. Многотокеновое прогнозирование (MTP) повышает эффективность предварительного обучения и ускоряет процесс логического вывода модели. Дополнительные оптимизации включают нуль-центрированную нормализацию с уменьшением веса модели, управляемые механизмы внимания и другие усовершенствования для эффективного обучения.

На этой архитектуре была создана модель Qwen3-Next-80B-A3B с открытым исходным кодом, содержащая 80 миллиардов параметров при активации лишь 3 миллиардов, что демонстрирует исключительный уровень разреженности и эффективности. Благодаря обновленной, сверхэффективной архитектуре, модель превосходит Qwen3-32B в задачах, требующих обработки больших объемов данных, при этом обеспечивая 10-кратное сокращении затрат на развертывание. Кроме того, Qwen3-Next-80B-A3B обеспечивает 10-кратное увеличение пропускной способности при выводе по сравнению с Qwen3-32B при обработке контекстов длиной свыше 32 000 токенов.

Выводы

Похоже, что Alibaba решила провести марафон выпуска новых, высокоэффективных ИИ-моделей семейства Qwen3 — ранее компания представила локальную нейросеть Qwen3-ASR-Flash для распознавания, а также облачную Qwen3-Max-Preview. Возможно, Alibaba активизировала политику экспансии на рынок ИИ, перехватывая первенство у DeepSeek, стагнирующих на фоне дефицита ИИ-ускорителей.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)