JoyAI-Image-Edit: легкие модели для генерации и редактирования изображений в open-source

04.04.2026

~ 2 мин

Простой

Новости

Введение

Китайский ИИ-стартап jdopensource представил новые открытые модели семейства JoyAI-Image-Edit, которые объединяют мультимодальную LLM на 8 миллиардов параметров и мультимодальный диффузионный трансформер на 16 миллиардов параметров в единой архитектуре для понимания, генерации и редактирования изображений. Ключевая особенность JoyAI-Image-Edit — приоритет на пространственное восприятие: модель не просто приблизительно определяет область редактирования, а выполняет точный анализ сцены, реляционную привязку объектов и детальную декомпозицию инструкций, благодаря чему изменения вносятся именно в нужное место с высоким качеством. Модели распространяются под лицензией Apache 2.0 и доступны на GitHub, Hugging Face и ModelScope.

Подробнее о JoyAI-Image-Edit

Архитектура JoyAI-Image базируется на замкнутом пайплайне, где пространственное восприятие улучшает процесс редактирования, а генеративные преобразования, такие как изменение точки обзора, влияют на логику рассуждений, создавая двустороннюю связь между пониманием и генерацией. Модель поддерживает три режима пространственного редактирования: перемещение объекта с помощью красного квадрата-маркера, поворот объекта с выбором из восьми канонических видов, а также управление камерой через поворот по осям Y и P вместе с масштабированием. Система также демонстрирует расширенные возможности рендеринга текста, включая создание мультипанельных комиксов, плотную многоязычную типографику, работу с развернутыми макетами и рукописными стилями.

В семейство моделей входят несколько версий ИИ: JoyAI-Image-Und для мультимодального понимания с высокоточными пространственными рассуждениями, JoyAI-Image-Edit для пошагового редактирования по инструкциям, а также дистиллированная версия для более быстрого вывода, JoyAI-Image-Edit-Plus для редактирования нескольких изображений с сохранением согласованности и композиции, и отдельная модель JoyAI-Image для генерации из текста в изображение. Все они основаны на едином интерфейсе MLLM-MMDiT и используют масштабируемый конвейер данных SpatialEdit, OpenSpatial и многоэтапные стратегии оптимизации. Благодаря этому JoyAI-Image обеспечивает более точное управляемое редактирование с лучшей сохранностью структуры сцены, а также пробуждает пространственный интеллект, позволяя системе понимать сложные пространственные отношения и выполнять преобразования с учетом геометрии объектов.

Выводы

JoyAI-Image-Edit — это еще один пример открытых ИИ-моделей, которые демократизируют доступ к генерации и редактированию изображений. Сочетание мощной языковой модели и диффузионного трансформера в едином цикле понимания и генерации позволяет достичь беспрецедентной точности пространственных манипуляций. А поддержка трех режимов редактирования, расширенный рендеринг текста и возможность работы с несколькими изображениями делают эту систему универсальным решением для самых разных творческих и исследовательских задач.

Автор:

Serverflow