Alibaba выпустила новую локальную ИИ-модель Qwen3-Next-80B-A3B на HuggingFace. Передовая нейросеть предлагает новую, оптимизированную архитектуру механизма смешанного внимания Gated DeltaNet + Gated Attention, что обеспечивает значительный прирост пропускной способности при сокращении затрат на развертывание.
Подробнее о Qwen3-Next-80B-A3B
Серия нейросетей Qwen3-Next представляет собой базовые модели нового поколения, специально разработанные для эффективной обработки длинных контекстных окон и работы с большим объемом параметров. Архитектура серии в себя ряд инновационных в решений, направленных на максимизацию производительности при минимальных вычислительных затратах. Гибридный механизм внимания, сочетающий Gated DeltaNet и Gated Attention, обеспечивает эффективное моделирование контекстных зависимостей. Технология High-Sparsity MoE реализует исключительно низкий коэффициент активации (1:50) в экспертных слоях, что значительно сокращает количество операций с плавающей запятой на токен при сохранении общей емкости модели. Многотокеновое прогнозирование (MTP) повышает эффективность предварительного обучения и ускоряет процесс логического вывода модели. Дополнительные оптимизации включают нуль-центрированную нормализацию с уменьшением веса модели, управляемые механизмы внимания и другие усовершенствования для эффективного обучения.
На этой архитектуре была создана модель Qwen3-Next-80B-A3B с открытым исходным кодом, содержащая 80 миллиардов параметров при активации лишь 3 миллиардов, что демонстрирует исключительный уровень разреженности и эффективности. Благодаря обновленной, сверхэффективной архитектуре, модель превосходит Qwen3-32B в задачах, требующих обработки больших объемов данных, при этом обеспечивая 10-кратное сокращении затрат на развертывание. Кроме того, Qwen3-Next-80B-A3B обеспечивает 10-кратное увеличение пропускной способности при выводе по сравнению с Qwen3-32B при обработке контекстов длиной свыше 32 000 токенов.
Выводы
Похоже, что Alibaba решила провести марафон выпуска новых, высокоэффективных ИИ-моделей семейства Qwen3 — ранее компания представила локальную нейросеть Qwen3-ASR-Flash для распознавания, а также облачную Qwen3-Max-Preview. Возможно, Alibaba активизировала политику экспансии на рынок ИИ, перехватывая первенство у DeepSeek, стагнирующих на фоне дефицита ИИ-ускорителей.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.