Top.Mail.Ru
Z-ai представила GLM-Image — первый генеративный ИИ для создания изображений | Новости ServerFlow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Z-ai представила GLM-Image — первый генеративный ИИ топового китайского разработчика

~ 2 мин
244
Простой
Новости
Z-ai представила GLM-Image — первый генеративный ИИ топового китайского разработчика

Введение

Команда разработчиков Z-ai, известная серией топовых языковых моделей GLM, представила GLM-Image — универсальную модель генерации изображений, использующую гибридную архитектуру, сочетающую авторегрессионный генератор и диффузионный декодер. Модель ориентирована на задачи высокоточной генерации изображений с глубоким семантическим пониманием и демонстрирует качество, сопоставимое с ведущими подходами скрытой диффузии, при этом показывая заметные преимущества в сценариях рендеринга текста и генерации, требующей обширных знаний.

Подробнее о GLM-Image

GLM-Image объемом 16 миллиардов параметров построена на гибридной архитектуре, в которой авторегрессионный модуль отвечает за семантическую структуру и композицию изображения, а диффузионный декодер — за визуальные детали и высокое качество финального рендеринга. 

Авторегрессионный генератор представляет собой модель на 9 миллиардов параметров, инициализированную на базе GLM-4-9B-0414 и расширенную визуальными токенами. На первом этапе он формирует компактное кодирование порядка 256 токенов, которое затем разворачивается до 1000–4000 токенов, соответствующих изображениям высокого разрешения в диапазоне 1000–2000 пикселей. Диффузионный декодер построен на 7-миллиардной однопоточной архитектуре DiT и выполняет декодирование изображения в латентном пространстве. В его состав входит специализированный текстовый модуль Glyph Encoder, существенно повышающий точность отображения текста на изображениях и обеспечивающий корректную визуализацию сложных надписей и символов.

Пайплайн GLM-Image
Пайплайн ИИ-модели GLM-Image. Источник: Hugging Face.

Отдельное внимание в GLM-Image уделено пост-обучению. Модель использует раздельную стратегию обучения с подкреплением на основе алгоритма GRPO, где разные модули получают специализированную обратную связь. Авторегрессионный компонент оптимизируется по низкочастотным сигналам, связанным с эстетикой и семантическим соответствием, что улучшает выполнение инструкций и художественную выразительность. Диффузионный декодер, в свою очередь, получает высокочастотную обратную связь, ориентированную на точность деталей и корректность текста, что позволяет достигать реалистичных текстур и высокой визуальной четкости.

GLM-Image поддерживает как преобразование текста в изображение, так и преобразование изображения в изображение в рамках одной модели. Помимо стандартной генерации по текстовому описанию, система способна выполнять редактирование изображений, перенос стиля, обеспечивать согласованность между несколькими объектами и генерировать изображения людей и предметов с сохранением их идентичности.

Генерация изображений GLM-Image
Как работает генерация изображений новой моделью GLM-Image. Источник: Hugging Face.

Выводы

GLM-Image демонстрирует, как гибридная комбинация авторегрессии и диффузии может обеспечить высокое качество генерации изображений без компромиссов между семантикой и детализацией. Модель особенно выделяется в задачах, требующих точного понимания сложных описаний и корректного рендеринга текста, а универсальная поддержка text-to-image и image-to-image сценариев делает ее гибким инструментом для широкого спектра визуальных ИИ-приложений.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)