В нашей прошлой статье мы рассказали вам, что из себя представляет ИИ-интерфейс ComfyUI, в чем его особенности и в каких сценариях его можно использовать. Теперь пришло время углубиться в принципы работы с ComfyUI и объяснить, как выстраивать эффективные workflow и поставить на поток генерацию, обработку, коррекцию, качественных изображений.
Панель управления ComfyUI
Начнем с основ, а именно с обзора панели управления интерфейсом ComfyUI. При входе в ComfyUI вы увидите холст (или фрейм), визуально схожий с рабочим пространством Figma — в нем будет происходить весь процесс выстраивания workflow.
Рабочий холст ComfyUI.
Слева будет находиться меню управления ComfyUI, где можно добавить новые холсты, редактировать текущие или сохранить их, а также выстраивать очередь выполнения холстов.
Панель управления ComfyUI.
Здесь же можно ознакомиться с библиотекой доступных ИИ-моделей и готовых ИИ-нод для выполнения различных задач.
Библиотека моделей ComfyUI.
Рекомендуем вам заранее установить инструмент “ComfyUI Manager” и настроить его через Python, поскольку эта функция значительно упростит загрузку обновлений и установку новых нейросетей, создание или использование кастомных нод и облегчит массу других операций. После установки функция “Manager” будет доступна в правом верхнем углу рабочего пространства.
Панель ComfyUI Manager.
В той же панели есть инструмент для фильтрации и скачивания кастомных нод с отображением количества ИИ-моделей, конфликтов между ними и коротким описанием их возможностей.
Выбор кастомных нод в ComfyUI.
Также в правом верхнем углу можно включить отображение логов, чтобы отслеживать все выполняемые действия в ComfyUI или вводить команды вручную.
Отображение логов ComfyUI.
Работа с узлами
Чтобы начать выстраивать workflow, необходимо добавить новые узлы или группы узлов. Каждый узел будет отвечать за то или иное действие, связанное с контентом, либо в узел можно поместить ИИ-модель, которая будет отвечать за эти действия, автоматизируя их.
Выбор узлов с различными функциями в ComfyUI.
Узлы можно соединять друг с другом с помощью так называемых краев (или проводов), тем самым выстраивая взаимодействие между ними, автоматизируя процесс генерации контента.
Связывание узлов ComfyUI.
Когда вы сформируете свой workflow, его выполнение можно будет запустить один или несколько раз с помощью соответствующей кнопки. Помимо этого, можно настроить то, как будет выполняться запуск — стандартный запуск, бесконечный запуск (модель будет бесконечно генерировать контент) или запуск при изменении workflow (например, при изменении настройки сида).
Генерация изображений
Мы разобрались в базовых принципах настройки ComfyUI, поэтому теперь перейдем непосредственно к использованию рабочих процессов!
Попробуем использовать самый простой и распространенный workflow для генерации изображений по текстовому запросу. Для начала ознакомимся с узлом “Load Checkpoint”, в котором можно выбрать любую загруженную диффузионную ИИ-модель для генерации изображения, и во многом результат генерации будет зависеть именно от эффективности выбранного искусственного интеллекта. Мы будем использовать чекпоинт с нейросетью Qwen Image — диффузионный искусственный интеллект из популярного семейства ИИ-моделей Qwen с повышенным качеством генерации и возможностью тонкой настройки.
Узел checkpoint с генеративной моделью искусственного интеллекта Qwen Image.
Как вы видите, помимо окна выбора модели, справа отображаются три компонента: MODEL, CLIP и VAE.
MODEL отвечает за генерацию изображения и предсказание шума. Этот компонент в дальнейшем будет подключаться к отдельному узлу для устранения шума.
CLIP отвечает за обработку положительных и отрицательных текстовых запросов.
VAE отвечает за кодировку, сжатие и восстановление изображения из так называемого латентного пространства (данные) в пиксели.
Затем нам нужно использовать два узла с меткой CLIP Text Encode — они нужны для ввода положительного и отрицательного промпта. Эти узлы будут преобразовывать текстовый запрос в токены, чтобы нейросеть могла понять и обработать ваш запрос. В положительном запросе нужно вводить то, что вы хотите увидеть на изображении, а в негативном — то, что не должно быть в изображении. Важно отметить, опция ввода положительного и негативного промпта доступна только при использовании генеративных нейросетей, причем, даже не во всех генеративных моделях есть такая опция. В то же время, все популярные языковые ИИ-модели позволяют вводить только положительные промпты. Благодаря функции ввода положительного и негативного промпта, юзеры ComfyUI получают огромный простор для использования своих навыков в промпт-инженеринге, получая максимально качественные изображения или видео без лишних элементов. Тем не менее, пользователи ComfyUI все же могут отказаться от такой возможности и вводить запросы через один промпт.
Связывание блока с CLIP-моделью и окнами ввода положительного и негативного промпта.
Здесь же можно выбрать или создать так называемые встраивания, которые зададут вашему изображению определенный стиль. Для этого начните вводить в поле слово “embedding:”, после чего откроется окно с доступными встройками.
Окно ввода встроек для положительного промпта.
Важно добавить узел с окном настройки изображения в латентном пространстве, который станет начальным этапом для работы генеративного ИИ и отдельным холстом для создания будущего изображения. Здесь можно установить размер изображения, которое хотите сгенерировать, указав его высоту и ширину — это очень полезная функция, недоступная в большинстве облачных мультимодальных ИИ-моделях (например, GPT с размером 512 x 512). Однако помните, что при увеличении размера изображения, ComfyUI будет использовать больше системных ресурсов. Также здесь можете установить размер партии, чтобы определить количество изображений, генерируемых за один запуск.
Узел с настройкой латентного пространства изображений.
Теперь нужно добавить узел с KSampler. Этот инструмент отвечает за удаление шума из изображения с помощью диффузии, пока оно находится в латентном пространстве, тем самым обеспечивая максимальное соответствие пользовательскому запросу. Узел KSampler имеет несколько параметров для точной настройки генерируемого изображения:
Seed: Значение seed контролирует начальный шум и композицию, за счет чего пользователь может генерировать новые версии одного и того же изображения, например, для повышения качества или замены поз. Это крайне полезный параметр, который недоступен в большинстве облачных генеративных ИИ.
Control_after_generation: Определяет значимость изменений изображения после каждой генерации (величина изменения seed). Можно установить случайные значения, инкремент (увеличивать seed на 1), декремент (уменьшать seed на 1) или фиксированное значение (не менять значение seed).
Step: Количество шагов выборки определяет интенсивность процесса уточнения пользовательского запроса. Более высокие значения позволяют генерировать изображения с минимумом артефактов и большей детализацией, при этом увеличивая время генерации.
Sampler_name: Этот параметр позволяет пользователям выбрать конкретный алгоритм выборки, используемый узлом KSampler. Различные алгоритмы выборки могут давать немного разные результаты и иметь разную скорость генерации.
Scheduler: Планировщик контролирует, как изменяется уровень шума изображения на каждом шаге процесса удаления шума. Так вы можете регулировать скорость удаления шума.
Denoise: Устанавливает количество начального шума, которое должно быть удалено. Значение 1 означает, что весь шум будет удален, что приведет к генерации максимально детализированного изображения.
Окно настройки узла с KSampler.
После этого необходимо подключить узлы для загрузки VAE-модели и VAE-декодировщика. VAE — это вариационный автоэнкодер на основе нейросетей, который используется для переноса изображений из пиксельного пространства и латентное пространство. В ComfyUI доступно множество VAE-моделей для каждой диффузионной нейросети, поэтому при неправильном выборе VAE генерация изображения будет недоступна. В свою очередь, VAE Decoder восстанавливает изображение из латента в пиксели для просмотра и сохранения сгенерированного контента.
Узел с загрузкой VAE-модели для нейросети Qwen Image.
Последний узел — окно вывода (сохранения) изображения. Нетрудно догадаться, что здесь и будет отображаться картинка, которую удалось создать с помощью нашего workflow. Готовые изображения будут сохраняться на локальном сервере.
Узел для вывода сгенерированного изображения.
Вот как выглядит наш workflow в полном масштабе.
Workflow Image Generation (cтоковый) для генерации изображений в полную величину.
А вот такое изображение получилось сгенерировать с помощью собранного workflow.
Изображения, сгенерированные через эффективный workflow.
Апскейл и масштабирование изображений
ComfyUI — это не только ИИ-интерфейс для генерации изображений, но и отличный инструмент для обработки как сгенерированных, так и загруженных медиа. С помощью встроенных нейросетей для апскейла, вы можете эффективно улучшать качество вашего контента и масштабировать его по заданным параметрам. Для апскейла контента загрузите изображение, которое нужно обработать, либо используйте уже готовый контент, ранее сгенерированный в вашем workflow.
Окно с просмотром загруженного изображения.
Затем добавьте узел с апскейлером. Важно упомянуть, что при выборе апскейла, вам необходимо также выбрать предварительно загруженную ИИ-модель, которая будет отвечать за улучшение качества картинки. Мы будем использовать нейросеть RealESRGAN x4, поскольку модели семейства ESRGAN считаются наиболее эффективными для апскейла изображений.
Узел для загрузки модели апскейла.
Затем нужно подключить его к узлу, отвечающему за вывод и сохранение изображения.
Связывание узлов апскейла исходного изображения и вывода нового изображения.
Демонстрируем, насколько улучшилось качество исходного изображения.
До:
Исходное изображение для апскейла.
После:
Изображение после апскейла.
Для изменения масштаба изображения нужно использовать блок “Scale Image to Total Pixels”, подключив к нему исходный контент и окно для вывода сгенерированной картинки с увеличенным масштабом. В этом же окне в поле “megapixels” можно настроить желаемые размеры изображения.
Workflow для увеличения масштаба изображения.
Добавление LoRA-моделей
LoRA — это специализированные модели искусственного интеллекта, которые корректируют процесс генерации изображений старшей модели за счет добавления дополнительных весов, позволяя получать более детализированный результат. Такие модели гораздо более компактны, чем диффузионные нейросети, и размещаются посредством добавления отдельных узлов в ваш workflow. Вы также можете настроить силу LoRA-модели, тем самым регулируя ее вмешательство в процесс генерации контента.
Добавление LoRA-модели для Qwen Image в workflow.
Сравним результаты генерации изображения с LoRA-моделью и без нее.
С LoRA:
Результат генерации изображения с использованием LoRA-модели.
Без LoRA:
Результат генерации изображения без использования LoRA-модели.
Выводы
ConfyUI можно с уверенностью назвать одним из самых эффективных инструментов для работы с генеративными моделями искусственного интеллекта. Огромное количество функций, широкий выбор моделей ИИ, максимальная гибкость настройки рабочих процессов — все это делает ConfyUI незаменимым инструментом для любого профессионального дизайнера или ИИ-энтузиаста. Сегодня мы разобрали огромное количество инструментов, которые пригодятся для генерации фотореалистичных изображений, но это лишь малая часть возможностей этого передового ИИ-интерфейса, поэтому в следующей части нашего гайда мы раскроем все тонкости настроек для создания анимаций и видеоматериалов.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.