Qwen3-Omni: первый мультитул в мире LLM

22.09.2025

~ 2 мин

1058

Простой

Новости

Введение

Компания Alibaba представила новую языковую модель Qwen3-Omni, с принципиально новой архитектурой, изначально заточенной под полную мультимодальность. Это означает, что Qwen3-Omni может работать с текстом, изображения, аудио и видео материалами в рамкой одной модели без необходимости в переключении между режимами и инструментами. Этот революционный релиз открывает огромный простор новых возможностей в области комплексного анализа и генерации контента различных форматов.

Подробнее о Qwen3-Omni

Беспрецедентная мультимодальность Qwen3-Omni достигается за счет сложной, гибридной архитектуры, в которую входят следующие компоненты:

Текстовый декодер с функцией прогнозирования кода, который обеспечивает авторегрессионную генерацию семантических и акустических токенов для создания бесшовного мультимодального контента.
Встроенная система распознавания речи на основе Qwen3-ASR, которая гарантирует высочайшую точность благодаря адаптивным алгоритмам обучения, обеспечивая надежное распознавание различных акцентов и интонационных паттернов. Система поддерживает 119 языков и диалектов, что делает ее универсальным решением для международного применения.
Двухкомпонентная система "Thinker-Talker", где модуль Thinker отвечает за обработку всех типов входных данных и создание высокоуровневых представлений, в то время как компонент Talker генерирует потоковые речевые токены для вывода звука в реальном времени. Оба модуля построены на базе MoE, что обеспечивает повышенную эффективность и масштабируемость.

Архитектура Qwen3-Omni. Источник: Hugging Face.

Такая инновационная гибридная архитектура позволяет использовать Qwen3-Omni в бесчисленном количестве сценариев: от создания контента и бизнес-решений до повседневного использования. Кроме того, Qwen3-Omni также поддерживает полную совместимость с live-трансляциями, инструменты обработки живой речи в режиме реального времени, а также совместимость с системами “умный дом” для голосового управления. Для разработчиков предусмотрена интеграция через API-интерфейсы, совместимые с OpenAI, что упрощает внедрение в существующие ИИ-приложения. Стоимость использования составляет $0,35 за 1 млн токенов для смешанных операций, что делает решение Alibaba крайне экономичным в сравнении с мультимодальными ИИ конкурентов.

Alibaba также выпустила три конфигурации модели Qwen3-Omni для оптимизации выполнения различных задач:

Qwen3-Omni-30B-A3B-Instruct для мультимодальных задач, требующих подробного следования инструкциям;
Qwen3-Omni-30B-A3B-Thinking для для решения сложных задач, требующих глубоких рассуждений и аналитической обработки;
Qwen3-Omni-30B-A3B-Captioner для универсальной аудиообработки с минимальным уровнем искажения.

Семейство мультимодальных LLM Qwen3-Omni

Семейство ИИ-моделей Qwen3-Omni. Источник: Hugging Face.

Все вариации модели Qwen3-Omni базируются на архитектуре MoE, имеют 30B параметров, 3B активных. Минимальные требования для локального развертывания нейросетей: 32 ГБ ОЗУ для квантованных версий, но рекомендуется иметь от 64 ГБ или инференс на мощных GPU для максимальной производительности с поддержкой стандартных CUDA конфигураций.

Веса Qwen3-Omni также доступны по лицензии Apache 2.0 на платформах Hugging Face, GitHub и ModelScope. Для развертывания рекомендуется использовать движок vLLM, поддерживается полная совместимость с FlashAttention 2.

Модели демонстрируют рекордную производительность с временем отклика 211 мс для аудиозадач и 507 мс для аудиовизуальных операций, в разы превосходя эффективность GPT-4o и Gemini-2.5-Pro при кратно меньшей стоимости токенов.

Производительность Qwen3-Omni в сравнении с ИИ-моделями Alibaba и конкурентов. Источник: Hugging Face.

Выводы

Alibaba уже по праву можно назвать локомотивом китайской ИИ-индустрии — компания всего за пару месяцев выпустила огромное множество различных нейросетей, способных выполнять полный спектр востребованных ИИ-операций. Скорее всего, такой скорый релиз Qwen3-Omni после предыдущих выпусков LLM связан с релизом DeepSeek V3.1 Terminus и Qianfan-VL от Baidu. Похоже, что все топовые ИИ-компании КНР решили выпустить свои флагманские нейросети в один день, и вряд ли это произошло случайно.

Автор:

Serverflow

Qwen3-Omni: первый мультитул в мире LLM

Подробнее о Qwen3-Omni

Выводы

Комментарии 0