Alibaba представила новогодний апдейт Qwen-Image-2512 — обновленную версию базовой модели text-to-image Qwen-Image. Новая модель уже доступна для тестирования в Qwen Chat и является развитием августовского релиза Qwen-Image-2508. Обновление сфокусировано не на косметических изменениях, а на фундаментальном повышении качества изображений, визуальной достоверности и мультимодальной точности, что выводит Qwen-Image-2512 на новый уровень среди открытых моделей генерации изображений.
Подробнее о Qwen-Image-2512
Ключевым улучшением модели Qwen-Image-2512 объемом 20 миллиардов параметров стало заметное повышение реалистичности изображений. Модель значительно снижает характерный эффект «искусственно сгенерированного изображения», особенно в сценах с участием людей. Лица стали более детализированными и естественными, а окружающая среда — более связной и логически согласованной. При одинаковых текстовых запросах Qwen-Image-2512 формирует более правдоподобные черты лица и более четкие фоновые элементы, такие как мебель, предметы интерьера и текстуры тканей.
Улучшения коснулись природных пейзажей. Модель точнее передает сложные визуальные структуры — поток воды, листву, туман, шерсть животных и другие элементы. В пейзажах заметно возросла детализация и глубина сцены, а цветовые градации, особенно в зеленых тонах, стали более насыщенными и естественными. Эти изменения делают изображения визуально более “живыми” и ближе к фотографическому стилю.
Отдельно стоит отметить развитие сильной стороны оригинальной Qwen-Image — рендеринга текста. В версии 2512 повышена точность отображения текстовых элементов, улучшена компоновка и согласованность текста с визуальной частью изображения. Это особенно важно для мультимодальных сценариев, где текст является частью композиции, например при генерации презентационных слайдов, инфографики или интерфейсных макетов. В практических примерах модель способна корректно сформировать полноценный PPT-слайд с читаемым текстом и логичной визуальной структурой.
С точки зрения общей производительности Qwen-Image-2512 демонстрирует очень сильные результаты. Более 10 000 раундов слепой оценки на платформе AI Arena показали, что на текущий момент это самая мощная модель генерации изображений с открытым исходным кодом. При этом она остается конкурентоспособной даже на фоне закрытых коммерческих решений, что для open-source сегмента является редким достижением.
Выводы
Qwen-Image-2512 — это не просто плановое обновление, а качественный скачок в развитии линейки Qwen-Image. Повышенная реалистичность, улучшенная детализация, сильная работа с текстом и высокая конкурентоспособность по результатам масштабных тестов делают модель одной из самых интересных открытых T2I-моделей на рынке к концу 2025 года. Для задач, где важны визуальная достоверность, мультимодальность и практическое применение, Qwen-Image-2512 выглядит зрелым и перспективным инструментом. Модель уже доступна на и в версиях base, GGUF и LoRA.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.