Alibaba представила Z-Image: 6b-модель на уровне лучших ИИ-генераторов

28.11.2025

~ 2 мин

597

Простой

Новости

Введение

TongyiLab (подразделение компании Alibaba) представила Z-Image — новую модель для генерации изображений, которая демонстрирует впечатляющее качество при всего 6 миллиардах параметров. Несмотря на компактный размер, модель способна создавать фотореалистичные изображения, корректно создавать текста на китайском и английском языке, а также поддерживать сложные семантические задачи. Благодаря оптимизации архитектуры, Z-Image может работать на видеокартах потребительского уровня с объемом VRAM менее 16 ГБ, что делает модель доступной для широкого круга пользователей.

Подробнее о Z-Image

Z-Image построена на архитектуре однопоточного диффузионного трансформера, которая объединяет текстовые и графические входные данные с зашумленными латентными слоями изображений в единую последовательность. Внутреннее тестирование модели показывает высокую конкурентоспособность среди ведущих открытых и проприетарных ИИ-моделей.

Пайплайн Z-Image. Источник: HuggingFace.

Z-Image-Turbo обеспечивает фотореалистичное качество изображений с высокоточной генерацией деталей, освещения и текстур, а также сохраняет эстетическую целостность композиции. Богатая база знаний о мире и культурных особенностях позволяет генерировать изображения с узнаваемыми объектами, известными достопримечательностями и персонажами, а также применять глубокое семантическое понимание. Инструмент Prompt Enhancement (PE) помогает внедрять логику в визуальные задачи, включая сложные сценарии и литературные или культурные темы.

Результаты тестирования Z-Image-Turbo. Источник: HuggingFace.

Также доступна модель Z-Image-Edit, которая расширяет возможности Z-Image-Turbo , обеспечивая точное выполнение инструкций и функцию точечного редактирования сгенерированных изображений. Модель может изменять фон, корректировать освещение и текст, сохраняя единообразие символов и композиционное целостное изображение.

Семейство моделей Z-Image. Источник: HuggingFace.

Выводы

Z-Image от Alibaba показывает что высокое качество генерации изображений достижимо без экстремального количества параметров. Модель сочетает фотореализм, точное отображение текста, культурное понимание и семантическое рассуждение, оставаясь доступной для оборудования потребительского класса с 16 ГБ VRAM. Alibaba пригласила сообщество поучаствовать в активном тестировании, чтобы способствовать развитию открытой и эффективной экосистемы генеративного ИИ. Модели семейства Z-Image уже доступны на GitHub, ModelScope и HuggingFace.

Автор:

Serverflow