Qwen3-VL: максимальная эффективность машинного зрения

24.09.2025

~ 2 мин

2014

Простой

Новости

Введение

Компания Alibaba представляет флагманскую разработку в области мультимодального искусственного интеллекта — серию моделей Qwen3-VL, устанавливающую новые стандарты в области машинного зрения и языковой обработки. Новое поколение LLM демонстрирует настоящий прорыв в области понимания и генерации текста, визуальном анализе, работе с длинными контекстами, пространственном восприятии и взаимодействии с эффективными ИИ-агентами.

Подробнее о Qwen3-VL

Флагманская модель Qwen3-VL-235B-A22B доступна в двух конфигурациях: версия Instruct показывает отличные результаты на уровне Gemini 2.5 Pro или даже превосходит ее в базовых тестах визуального восприятия, а версия Thinking лидирует в мультимодальных тестах на логическое мышление. Архитектура системы ориентирована на переход от простого распознавания изображений к глубокому пониманию контекста и выполнению сложных задач. Ключевые усовершенствования моделей Qwen3-VL включают расширенные возможности работы с визуальными агентами, позволяющие модели взаимодействовать с компьютерными интерфейсами, распознавать элементы GUI и выполнять задачи с помощью эффективных инструментов. Совместное предварительное обучение с использованием текстовых и визуальных данных обеспечивает языковые впечатляющую производительность на уровне языковой модели Qwen3-235B-A22B-2507. Архитектурные обновления включают внедрение системы Interleaved-MRoPE для улучшения позиционного кодирования, технологию DeepStack для многоуровневой интеграции визуальных признаков и усовершенствованный механизм темпорального моделирования видео с поддержкой точной временной привязки событий.

Помимо этого, в Qwen3-VL улучшены функции визуального программирования — модели генерируют код на основе анализа изображений, преобразуя дизайн-макеты в HTML, CSS или JavaScript. Также было усовершенствовано пространственное восприятие с переходом к относительным координатам в 2D и поддержкой 3D-анализа. Базовая поддержка контекста расширена до 256 тысяч токенов с возможностью увеличения до 1 миллиона токенов, что позволяет обрабатывать многочасовые видео или объемные тестовые документы.

Специализированная версия Thinking дополнительно оптимизирована для STEM-задач и математических рассуждений, демонстрируя высокие результаты в тестах MathVision, MMMU и MathVista. В ней улучшено распознавание объектов и текста на 32 языках в сложных условиях, включая плохое освещение или нестандартные шрифты. В ходе комплексного тестирования в десяти бенчмарках модель показала наилучшие результаты среди открытых решений, превзойдя по многим показателям проприетарные решения типа Gemini 2.5 Pro и GPT-5. В тестах на длинный контекст модели удалось достигнуть 100% точности при контексте в 256 тысяч токенов и 99.5% при контексте в 1 миллион токенов. В задачах многоязычного распознавания текста LLM демонстрирует точность выше 70% для 32 языков. Веса семейства Qwen3-VL уже доступны для скачивания на GitHub и Hugging Face.

Производительность Qwen3-VL-235B-A22B-Thinking и Qwen3-VL-235B-A22B-Instruct

Производительность ИИ-моделей Qwen3-VL-235B-A22B-Thinking и Qwen3-VL-235B-A22B-Instruct.. Источник: Qwen.

Выводы

Модели Qwen3-VL по праву можно назвать новыми лидерами среди нейросетей для задач машинного зрения, которые превосходят даже самые топовые решения на этом рынке. Высокая производительность, поддержка огромного контекстного окна и широкий функционал гарантировано обеспечат Qwen3-VL широкую популярность как в пользовательских задачах, так и операциях корпоративного уровня.

Автор:

Serverflow