Компания Alibaba представила новую языковую модель Qwen3-Omni, с принципиально новой архитектурой, изначально заточенной под полную мультимодальность. Это означает, что Qwen3-Omni может работать с текстом, изображения, аудио и видео материалами в рамкой одной модели без необходимости в переключении между режимами и инструментами. Этот революционный релиз открывает огромный простор новых возможностей в области комплексного анализа и генерации контента различных форматов.
Подробнее о Qwen3-Omni
Беспрецедентная мультимодальность Qwen3-Omni достигается за счет сложной, гибридной архитектуры, в которую входят следующие компоненты:
Текстовый декодер с функцией прогнозирования кода, который обеспечивает авторегрессионную генерацию семантических и акустических токенов для создания бесшовного мультимодального контента.
Встроенная система распознавания речи на основе Qwen3-ASR, которая гарантирует высочайшую точность благодаря адаптивным алгоритмам обучения, обеспечивая надежное распознавание различных акцентов и интонационных паттернов. Система поддерживает 119 языков и диалектов, что делает ее универсальным решением для международного применения.
Двухкомпонентная система "Thinker-Talker", где модуль Thinker отвечает за обработку всех типов входных данных и создание высокоуровневых представлений, в то время как компонент Talker генерирует потоковые речевые токены для вывода звука в реальном времени. Оба модуля построены на базе MoE, что обеспечивает повышенную эффективность и масштабируемость.
Архитектура Qwen3-Omni. Источник: .
Такая инновационная гибридная архитектура позволяет использовать Qwen3-Omni в бесчисленном количестве сценариев: от создания контента и бизнес-решений до повседневного использования. Кроме того, Qwen3-Omni также поддерживает полную совместимость с live-трансляциями, инструменты обработки живой речи в режиме реального времени, а также совместимость с системами “умный дом” для голосового управления. Для разработчиков предусмотрена интеграция через API-интерфейсы, совместимые с OpenAI, что упрощает внедрение в существующие ИИ-приложения. Стоимость использования составляет $0,35 за 1 млн токенов для смешанных операций, что делает решение Alibaba крайне экономичным в сравнении с мультимодальными ИИ конкурентов.
Alibaba также выпустила три конфигурации модели Qwen3-Omni для оптимизации выполнения различных задач:
Qwen3-Omni-30B-A3B-Instruct для мультимодальных задач, требующих подробного следования инструкциям;
Qwen3-Omni-30B-A3B-Thinking для для решения сложных задач, требующих глубоких рассуждений и аналитической обработки;
Qwen3-Omni-30B-A3B-Captioner для универсальной аудиообработки с минимальным уровнем искажения.
Семейство ИИ-моделей Qwen3-Omni. Источник: .
Все вариации модели Qwen3-Omni базируются на архитектуре MoE, имеют 30B параметров, 3B активных. Минимальные требования для локального развертывания нейросетей: 32 ГБ ОЗУ для квантованных версий, но рекомендуется иметь от 64 ГБ или инференс на мощных GPU для максимальной производительности с поддержкой стандартных CUDA конфигураций.
Веса Qwen3-Omni также доступны по лицензии Apache 2.0 на платформах Hugging Face, GitHub и ModelScope. Для развертывания рекомендуется использовать движок vLLM, поддерживается полная совместимость с FlashAttention 2.
Модели демонстрируют рекордную производительность с временем отклика 211 мс для аудиозадач и 507 мс для аудиовизуальных операций, в разы превосходя эффективность GPT-4o и Gemini-2.5-Pro при кратно меньшей стоимости токенов.
Производительность Qwen3-Omni в сравнении с ИИ-моделями Alibaba и конкурентов. Источник: .
Выводы
Alibaba уже по праву можно назвать локомотивом китайской ИИ-индустрии — компания всего за пару месяцев выпустила огромное множество различных нейросетей, способных выполнять полный спектр востребованных ИИ-операций. Скорее всего, такой скорый релиз Qwen3-Omni после предыдущих выпусков LLM связан с релизом DeepSeek V3.1 Terminus и Qianfan-VL от Baidu. Похоже, что все топовые ИИ-компании КНР решили выпустить свои флагманские нейросети в один день, и вряд ли это произошло случайно.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.