Компания Alibaba представляет флагманскую разработку в области мультимодального искусственного интеллекта — серию моделей Qwen3-VL, устанавливающую новые стандарты в области машинного зрения и языковой обработки. Новое поколение LLM демонстрирует настоящий прорыв в области понимания и генерации текста, визуальном анализе, работе с длинными контекстами, пространственном восприятии и взаимодействии с эффективными ИИ-агентами.
Подробнее о Qwen3-VL
Флагманская модель Qwen3-VL-235B-A22B доступна в двух конфигурациях: версия Instruct показывает отличные результаты на уровне Gemini 2.5 Pro или даже превосходит ее в базовых тестах визуального восприятия, а версия Thinking лидирует в мультимодальных тестах на логическое мышление. Архитектура системы ориентирована на переход от простого распознавания изображений к глубокому пониманию контекста и выполнению сложных задач. Ключевые усовершенствования моделей Qwen3-VL включают расширенные возможности работы с визуальными агентами, позволяющие модели взаимодействовать с компьютерными интерфейсами, распознавать элементы GUI и выполнять задачи с помощью эффективных инструментов. Совместное предварительное обучение с использованием текстовых и визуальных данных обеспечивает языковые впечатляющую производительность на уровне языковой модели Qwen3-235B-A22B-2507. Архитектурные обновления включают внедрение системы Interleaved-MRoPE для улучшения позиционного кодирования, технологию DeepStack для многоуровневой интеграции визуальных признаков и усовершенствованный механизм темпорального моделирования видео с поддержкой точной временной привязки событий.
Помимо этого, в Qwen3-VL улучшены функции визуального программирования — модели генерируют код на основе анализа изображений, преобразуя дизайн-макеты в HTML, CSS или JavaScript. Также было усовершенствовано пространственное восприятие с переходом к относительным координатам в 2D и поддержкой 3D-анализа. Базовая поддержка контекста расширена до 256 тысяч токенов с возможностью увеличения до 1 миллиона токенов, что позволяет обрабатывать многочасовые видео или объемные тестовые документы.
Специализированная версия Thinking дополнительно оптимизирована для STEM-задач и математических рассуждений, демонстрируя высокие результаты в тестах MathVision, MMMU и MathVista. В ней улучшено распознавание объектов и текста на 32 языках в сложных условиях, включая плохое освещение или нестандартные шрифты. В ходе комплексного тестирования в десяти бенчмарках модель показала наилучшие результаты среди открытых решений, превзойдя по многим показателям проприетарные решения типа Gemini 2.5 Pro и GPT-5. В тестах на длинный контекст модели удалось достигнуть 100% точности при контексте в 256 тысяч токенов и 99.5% при контексте в 1 миллион токенов. В задачах многоязычного распознавания текста LLM демонстрирует точность выше 70% для 32 языков. Веса семейства Qwen3-VL уже доступны для скачивания на GitHub и Hugging Face.
Производительность ИИ-моделей Qwen3-VL-235B-A22B-Thinking и Qwen3-VL-235B-A22B-Instruct.. Источник: .
Выводы
Модели Qwen3-VL по праву можно назвать новыми лидерами среди нейросетей для задач машинного зрения, которые превосходят даже самые топовые решения на этом рынке. Высокая производительность, поддержка огромного контекстного окна и широкий функционал гарантировано обеспечат Qwen3-VL широкую популярность как в пользовательских задачах, так и операциях корпоративного уровня.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.