TongyiLab (подразделение компании Alibaba) представила Z-Image — новую модель для генерации изображений, которая демонстрирует впечатляющее качество при всего 6 миллиардах параметров. Несмотря на компактный размер, модель способна создавать фотореалистичные изображения, корректно создавать текста на китайском и английском языке, а также поддерживать сложные семантические задачи. Благодаря оптимизации архитектуры, Z-Image может работать на видеокартах потребительского уровня с объемом VRAM менее 16 ГБ, что делает модель доступной для широкого круга пользователей.
Подробнее о Z-Image
Z-Image построена на архитектуре однопоточного диффузионного трансформера, которая объединяет текстовые и графические входные данные с зашумленными латентными слоями изображений в единую последовательность. Внутреннее тестирование модели показывает высокую конкурентоспособность среди ведущих открытых и проприетарных ИИ-моделей.
Пайплайн Z-Image. Источник: .
Z-Image-Turbo обеспечивает фотореалистичное качество изображений с высокоточной генерацией деталей, освещения и текстур, а также сохраняет эстетическую целостность композиции. Богатая база знаний о мире и культурных особенностях позволяет генерировать изображения с узнаваемыми объектами, известными достопримечательностями и персонажами, а также применять глубокое семантическое понимание. Инструмент Prompt Enhancement (PE) помогает внедрять логику в визуальные задачи, включая сложные сценарии и литературные или культурные темы.
Результаты тестирования Z-Image-Turbo. Источник: .
Также доступна модель Z-Image-Edit, которая расширяет возможности Z-Image-Turbo , обеспечивая точное выполнение инструкций и функцию точечного редактирования сгенерированных изображений. Модель может изменять фон, корректировать освещение и текст, сохраняя единообразие символов и композиционное целостное изображение.
Семейство моделей Z-Image. Источник: .
Выводы
Z-Image от Alibaba показывает что высокое качество генерации изображений достижимо без экстремального количества параметров. Модель сочетает фотореализм, точное отображение текста, культурное понимание и семантическое рассуждение, оставаясь доступной для оборудования потребительского класса с 16 ГБ VRAM. Alibaba пригласила сообщество поучаствовать в активном тестировании, чтобы способствовать развитию открытой и эффективной экосистемы генеративного ИИ. Модели семейства Z-Image уже доступны на GitHub, ModelScope и HuggingFace.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.