Top.Mail.Ru
Qwen3-Omni: первый мультитул в мире LLM | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
В связи с праздниками в Китае ожидаются трудности при работе с товарами "под заказ". Возможны задержки в уточнении цен и оформлении заказов из-за отсутствия связи с партнёрами.
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Qwen3-Omni: первый мультитул в мире LLM

~ 2 мин
371
Простой
Новости
Qwen3-Omni: первый мультитул в мире LLM
Введение
Компания Alibaba представила новую языковую модель Qwen3-Omni, с принципиально новой архитектурой, изначально заточенной под полную мультимодальность. Это означает, что Qwen3-Omni может работать с текстом, изображения, аудио и видео материалами в рамкой одной модели без необходимости в переключении между режимами и инструментами. Этот революционный релиз открывает огромный простор новых возможностей в области комплексного анализа и генерации контента различных форматов.

Подробнее о Qwen3-Omni

Беспрецедентная мультимодальность Qwen3-Omni достигается за счет сложной, гибридной архитектуры, в которую входят следующие компоненты:
  • Текстовый декодер с функцией прогнозирования кода, который обеспечивает авторегрессионную генерацию семантических и акустических токенов для создания бесшовного мультимодального контента.
  • Встроенная система распознавания речи на основе Qwen3-ASR, которая гарантирует высочайшую точность благодаря адаптивным алгоритмам обучения, обеспечивая надежное распознавание различных акцентов и интонационных паттернов. Система поддерживает 119 языков и диалектов, что делает ее универсальным решением для международного применения.
  • Двухкомпонентная система "Thinker-Talker", где модуль Thinker отвечает за обработку всех типов входных данных и создание высокоуровневых представлений, в то время как компонент Talker генерирует потоковые речевые токены для вывода звука в реальном времени. Оба модуля построены на базе MoE, что обеспечивает повышенную эффективность и масштабируемость.
Архитектура базовой модели Qwen3-Omni
Архитектура Qwen3-Omni. Источник: Hugging Face.

Такая инновационная гибридная архитектура позволяет использовать Qwen3-Omni в бесчисленном количестве сценариев: от создания контента и бизнес-решений до повседневного использования. Кроме того, Qwen3-Omni также поддерживает полную совместимость с live-трансляциями, инструменты обработки живой речи в режиме реального времени, а также совместимость с системами “умный дом” для голосового управления. Для разработчиков предусмотрена интеграция через API-интерфейсы, совместимые с OpenAI, что упрощает внедрение в существующие ИИ-приложения. Стоимость использования составляет $0,35 за 1 млн токенов для смешанных операций, что делает решение Alibaba крайне экономичным в сравнении с мультимодальными ИИ конкурентов.

Alibaba также выпустила три конфигурации модели Qwen3-Omni для оптимизации выполнения различных задач: 
  • Qwen3-Omni-30B-A3B-Instruct для мультимодальных задач, требующих подробного следования инструкциям;
  • Qwen3-Omni-30B-A3B-Thinking для для решения сложных задач, требующих глубоких рассуждений и аналитической обработки;
  • Qwen3-Omni-30B-A3B-Captioner для универсальной аудиообработки с минимальным уровнем искажения. 
Семейство мультимодальных LLM Qwen3-Omni
Семейство ИИ-моделей Qwen3-Omni. Источник: Hugging Face.

Все вариации модели Qwen3-Omni базируются на архитектуре MoE, имеют 30B параметров, 3B активных. Минимальные требования для локального развертывания нейросетей: 32 ГБ ОЗУ для квантованных версий, но рекомендуется иметь от 64 ГБ или инференс на мощных GPU для максимальной производительности с поддержкой стандартных CUDA конфигураций. 

Веса Qwen3-Omni также доступны по лицензии Apache 2.0 на платформах Hugging Face, GitHub и ModelScope. Для развертывания рекомендуется использовать движок vLLM, поддерживается полная совместимость с FlashAttention 2.

Модели демонстрируют рекордную производительность с временем отклика 211 мс для аудиозадач и 507 мс для аудиовизуальных операций, в разы превосходя эффективность GPT-4o и Gemini-2.5-Pro при кратно меньшей стоимости токенов.

Производительность Qwen3-Omni
Производительность Qwen3-Omni в сравнении с ИИ-моделями Alibaba и конкурентов. Источник: Hugging Face.

Выводы

Alibaba уже по праву можно назвать локомотивом китайской ИИ-индустрии — компания всего за пару месяцев выпустила огромное множество различных нейросетей, способных выполнять полный спектр востребованных ИИ-операций. Скорее всего, такой скорый релиз Qwen3-Omni после предыдущих выпусков LLM связан с релизом DeepSeek V3.1 Terminus и Qianfan-VL от Baidu. Похоже, что все топовые ИИ-компании КНР решили выпустить свои флагманские нейросети в один день, и вряд ли это произошло случайно.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)