Команда разработчиков Z-ai, известная серией топовых языковых моделей GLM, представила GLM-Image — универсальную модель генерации изображений, использующую гибридную архитектуру, сочетающую авторегрессионный генератор и диффузионный декодер. Модель ориентирована на задачи высокоточной генерации изображений с глубоким семантическим пониманием и демонстрирует качество, сопоставимое с ведущими подходами скрытой диффузии, при этом показывая заметные преимущества в сценариях рендеринга текста и генерации, требующей обширных знаний.
Подробнее о GLM-Image
GLM-Image объемом 16 миллиардов параметров построена на гибридной архитектуре, в которой авторегрессионный модуль отвечает за семантическую структуру и композицию изображения, а диффузионный декодер — за визуальные детали и высокое качество финального рендеринга.
Авторегрессионный генератор представляет собой модель на 9 миллиардов параметров, инициализированную на базе GLM-4-9B-0414 и расширенную визуальными токенами. На первом этапе он формирует компактное кодирование порядка 256 токенов, которое затем разворачивается до 1000–4000 токенов, соответствующих изображениям высокого разрешения в диапазоне 1000–2000 пикселей. Диффузионный декодер построен на 7-миллиардной однопоточной архитектуре DiT и выполняет декодирование изображения в латентном пространстве. В его состав входит специализированный текстовый модуль Glyph Encoder, существенно повышающий точность отображения текста на изображениях и обеспечивающий корректную визуализацию сложных надписей и символов.
Пайплайн ИИ-модели GLM-Image. Источник: .
Отдельное внимание в GLM-Image уделено пост-обучению. Модель использует раздельную стратегию обучения с подкреплением на основе алгоритма GRPO, где разные модули получают специализированную обратную связь. Авторегрессионный компонент оптимизируется по низкочастотным сигналам, связанным с эстетикой и семантическим соответствием, что улучшает выполнение инструкций и художественную выразительность. Диффузионный декодер, в свою очередь, получает высокочастотную обратную связь, ориентированную на точность деталей и корректность текста, что позволяет достигать реалистичных текстур и высокой визуальной четкости.
GLM-Image поддерживает как преобразование текста в изображение, так и преобразование изображения в изображение в рамках одной модели. Помимо стандартной генерации по текстовому описанию, система способна выполнять редактирование изображений, перенос стиля, обеспечивать согласованность между несколькими объектами и генерировать изображения людей и предметов с сохранением их идентичности.
Как работает генерация изображений новой моделью GLM-Image. Источник: .
Выводы
GLM-Image демонстрирует, как гибридная комбинация авторегрессии и диффузии может обеспечить высокое качество генерации изображений без компромиссов между семантикой и детализацией. Модель особенно выделяется в задачах, требующих точного понимания сложных описаний и корректного рендеринга текста, а универсальная поддержка text-to-image и image-to-image сценариев делает ее гибким инструментом для широкого спектра визуальных ИИ-приложений.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.