Qwen-Image-2512: новогодний апдейт базовой модели генерации изображений

31.12.2025

~ 2 мин

1279

Простой

Новости

Введение

Alibaba представила новогодний апдейт Qwen-Image-2512 — обновленную версию базовой модели text-to-image Qwen-Image. Новая модель уже доступна для тестирования в Qwen Chat и является развитием августовского релиза Qwen-Image-2508. Обновление сфокусировано не на косметических изменениях, а на фундаментальном повышении качества изображений, визуальной достоверности и мультимодальной точности, что выводит Qwen-Image-2512 на новый уровень среди открытых моделей генерации изображений.

Подробнее о Qwen-Image-2512

Ключевым улучшением модели Qwen-Image-2512 объемом 20 миллиардов параметров стало заметное повышение реалистичности изображений. Модель значительно снижает характерный эффект «искусственно сгенерированного изображения», особенно в сценах с участием людей. Лица стали более детализированными и естественными, а окружающая среда — более связной и логически согласованной. При одинаковых текстовых запросах Qwen-Image-2512 формирует более правдоподобные черты лица и более четкие фоновые элементы, такие как мебель, предметы интерьера и текстуры тканей.

Улучшения коснулись природных пейзажей. Модель точнее передает сложные визуальные структуры — поток воды, листву, туман, шерсть животных и другие элементы. В пейзажах заметно возросла детализация и глубина сцены, а цветовые градации, особенно в зеленых тонах, стали более насыщенными и естественными. Эти изменения делают изображения визуально более “живыми” и ближе к фотографическому стилю.

Отдельно стоит отметить развитие сильной стороны оригинальной Qwen-Image — рендеринга текста. В версии 2512 повышена точность отображения текстовых элементов, улучшена компоновка и согласованность текста с визуальной частью изображения. Это особенно важно для мультимодальных сценариев, где текст является частью композиции, например при генерации презентационных слайдов, инфографики или интерфейсных макетов. В практических примерах модель способна корректно сформировать полноценный PPT-слайд с читаемым текстом и логичной визуальной структурой.

С точки зрения общей производительности Qwen-Image-2512 демонстрирует очень сильные результаты. Более 10 000 раундов слепой оценки на платформе AI Arena показали, что на текущий момент это самая мощная модель генерации изображений с открытым исходным кодом. При этом она остается конкурентоспособной даже на фоне закрытых коммерческих решений, что для open-source сегмента является редким достижением.

Выводы

Qwen-Image-2512 — это не просто плановое обновление, а качественный скачок в развитии линейки Qwen-Image. Повышенная реалистичность, улучшенная детализация, сильная работа с текстом и высокая конкурентоспособность по результатам масштабных тестов делают модель одной из самых интересных открытых T2I-моделей на рынке к концу 2025 года. Для задач, где важны визуальная достоверность, мультимодальность и практическое применение, Qwen-Image-2512 выглядит зрелым и перспективным инструментом. Модель уже доступна на ModelScope и Hugging Face в версиях base, GGUF и LoRA.

Автор:

Serverflow