Китайский ИИ-гигант Alibaba представила Qwen-Image-Layered — новое поколение ИИ-генераторов изображений, ориентированный на работу со слоями картинки. В отличие от привычных diffusion-моделей, которые создают единое RGB-полотно, Qwen-Image-Layered изначально оперирует изображением как набором независимых слоев с поддержкой прозрачности. Такой подход приближает функционал ИИ-генерации к профессиональным графическим редакторам уровня PhotoShop и радикально расширяет возможности диффузионных нейросетей.
Подробно о Qwen-Image-Layered
В основе модели Qwen-Image-Layered с 20 миллиардам параметров лежит идея слоев RGBA, где каждый визуальный элемент сцены — фон, объект, текстура, тень — представлен как отдельная сущность. Для этого модель обучается не просто воспроизводить цветовые значения пикселей, а понимать прозрачность и взаимное наложение элементов. Дополнительно проводилось дообучение за счет использования реальных данных из профессиональных графических форматов, где изображения уже разложены на слои, что делает поведение модели ближе к реальным рабочим процессам дизайнеров. Специальная вариационная архитектура Multimodal Diffusion Transformer (MMDiT) связывает представления RGB и RGBA, позволяя модели видеть изображение не как результат финального рендеринга, а как композицию компонентов. Благодаря этому Qwen-Image-Layered может декомпозировать сцену на переменное количество слоев. Их число не задано заранее и определяется сложностью изображения, что позволяет одинаково эффективно работать как с простыми сценами, так и с насыщенными, масштабными композициями. В то время, пока классические диффузионки с трудом справляются с удалением объектов, заменой фона и интеграцией новых элементов, перегенерируя для этого практически все изображение, Qwen-Image-Layered с легкостью выполняет подобные задачи, не нарушая структуру картинки.
Выводы
Qwen-Image-Layered представляет собой крайне важный шаг в эволюции генеративной графики — от создания статичных изображений к изначально редактируемым визуальным сценам. За счет глубокой декомпозиции на слои модель обеспечивает прозрачность структуры, точечный контроль и устойчивость при сложных правках. По сути, это сближение генеративного ИИ с логикой профессиональных дизайн-инструментов, где управление сценой происходит на уровне смысловых компонентов, а не итогового изображения. Пока что это не переход на принципиально новый уровень развития генеративных ИИ, но такой подход способен кратно увеличить возможности редактирования изображений и во многом поменять правила индустрии диффузионного искусственного интеллекта.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.