Гайд по генерации видео и анимаций в ComfyUI

07.09.2025

~ 10 мин

9542

Средний

Гайды

Введение

В нашем прошлом гайде мы рассказали о выстраивании эффективных workflow для генерации, настройки и обработки изображений. Однако ComfyUI — это не узкоспециализированная система для работы со статичным контентом, а целая мастерская, в которой в вашем распоряжении есть еще и бесчисленное количество инструментов для создания анимаций и генерации видео. В этом руководстве специалисты ServerFlow расскажут вам, как создавать качественные рабочие процессы для анимирования изображений и генерации видеороликов.

Создание анимаций и видео по референсному изображению

ComfyUI поддерживает огромное количество ИИ-моделей для генерации качественных видеороликов, однако в рамках нашего гайда мы будем использовать диффузионную модель wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors от компании Alibaba, разработчики которой стоят за разработкой такого популярного семейства нейросетей, как Qwen. Помимо Wan 2.2, нам также понадобится загрузить CLIP-модель“umt5_xxl_fp8_e4m3fn_scaled.safetensors” для обработки текстового запроса и исходного изображения, а также необходимо загрузить кодировщик VAE с моделью “wan_2.1_vae.safetensors”.

Узлы загрузки диффузионного ИИ, VAE и CLIP моделей для генерации видеороликов.

Все перечисленные ИИ-модели можно загрузить через инструмент ComfyUI Manager.

Поиск модели wan2.2 через ComfyUI Manager.

Как и в случае с выстраиванием workflow под генерацию изображений, для создания видео также потребуются промпт-узлы под позитивный и негативный текстовый запрос.

Узлы для вставки позитивного и негативного промпта для генерации видеоролика.

Помимо стандартного KSampler, также нужен узел “ModelSampling SD3”, который необходим для углубленной настройки поведения выбранной диффузионной ИИ-модели, а именно регулирования процесса выборки для получения более детализированного результата.

Как и у статичных изображений, генерируемые искусственным интеллектом видеоролики также создаются сначала в латентном пространстве, а затем декодируются в пиксели. Настройка латентного пространства при использовании ИИ-модели Wan 2.2 требует использования отдельного узла “Wan22ImageToVideoLatent”. В нем можно настроить ширину и высоту видео, а также его продолжительность и размер партии видео.

Узел настройки латентного пространства Wan22ImageToVideoLatent.

Поскольку наше видео будет генерироваться с использованием шаблона в виде статичного изображения, его необходимо загрузить отдельно с соответствующего узла, после чего связать его с узлом настройки латентного пространства. Этот узел также можно подключить к узлу с маской, чтобы workflow автоматически менял содержимое видео и добавлял новые детали по вашему запросу.

Окно загрузки референсного изображения для генерации видеоролика.

Само собой, также потребуются узлы с декодировщиком VAE, который будет подключаться к загруженному ранее кодировщику и узлу KSampler. Также необходимо добавить поле для настройки создаваемого видеоролика, в котором можно выбрать показатель FPS для достижения более плавных движений и ускорения видео. Этот узел будет подключаться к декодировщику VAE и окну вывода сгенерированного видео, а также специальным узлам для генерации аудиосопровождения.

Последний узел, который нужно добавить — окно вывода вашего видео. Здесь можно выбрать удобный формат готового контента и кодек видео, а также поменять название видеоролика.

Окно вывода сгенерированного видеоролика.

В полном масштабе получившийся workflow будет выглядеть так. Как вы можете увидеть, чем более сложные задачи вы выполняете через ComfyUI, тем масштабнее становятся workflow, причем, расширять ваши рабочие процессы можно практически бесконечно, добавляя все новые и новые узлы для апскейла, интеграции LoRA-моделей и другие инструменты.

Стоковый workflow для генерации видео через ComfyUI.

Такое видео нам удалось сгенерировать с помощью этого workflow:

Конференция Intel пошла не по плану.

На самом деле, вариаций рабочих процессов для генерации видео по текстовому запросу и референсному изображению может быть очень много, поскольку в эту схему также можно добавить различные маски, LoRA-модели и другие модификации, а также настроить параметры генерации, чтобы сделать результат еще более детализированнее и качественнее.

Узлы для интеграции LoRA-моделей, совместимых с моделью Wan2.2.

Также ComfyUI предлагает функцию интеграции двух диффузионных моделей для генерации высококачественных видеороликов. При таком сценарии использования одна модель будет отвечать за обработку высокого шума (high noise), а вторая будет отвечать за обработку низкого шума (low noise).

Ввиду наличия двух диффузионных моделей, важно также интегрировать два узла с инструментом KSampler, а для более глубокой детализации генерируемого видеоролика, мы будем использовать продвинутую версию KSampler с расширенными параметрами настройки.

Два узла для продвинутой настройки KSampler.

Поскольку в workflow есть по два узла диффузионной модели и KSampler, для генерации видео также потребуется два узла “ModelSamplingSD3”.

Два узла ModelSamplingSD3.

Вот как будет выглядеть готовый workflow с оптимизацией для генерации более детализированных видеороликов по исходному изображению через нейросеть Wan2.2:

Продвинутый workflow для генерации видеоролика по референсу

Продвинутый workflow для генерации детализированного видеоролика по референсному изображению.

Такого результата нам удалось добиться с помощью этого workflow:

Видеоролик, сгенерированный в ComfyUI.

Генерация видео по тексту

Добавление исходного изображения — необязательный этап, поскольку вы также можете генерировать видео только через текстовый запрос, но в таком случае ваши промпты придется прописывать гораздо подробнее, чтобы получить более качественный результат.

В случае генерации видеоролика без использования исходного изображения, вам также понадобится убрать узел “Wan22ImageToVideoLatent”. Вместо него, необходимо добавить узел “EmptyHunyuanLatentVideo”, который будет отвечать за настройку латентного пространства видеоролика. Этот узел нужно подключить к KSampler.

Узел для настройки латентного пространства EmptyHunyuanLatentVideo.

Готовый Workflow будет выглядеть примерно так:

Workflow для генерации видеоролика по текстовому запросу.

Вот какое видео нам удалось сгенерировать с помощью этого workflow:

Случай в бюджетном колокейшн-центре.

Генерация видео по первому и последнему кадру

Если вы хотите создавать полноценные видеоролики с логическим завершением, которое вы выберите самостоятельно, то вам понадобится создать workflow для генерации видео по первому и последнему кадру. Очевидно, что для такого сценария использования workflow необходимо добавить первый и последний кадр с использованием стандартных узлов “Load image”.

Первый и последний кадр для генерации видеоролика.

Еще один отличительный этап генерации видеороликов по первому и последнему кадру — использование узла “WanFirstLastFrameToVideo”, который подключается к позитивному и негативному промпту, двум выбранным изображениям, кодировщику VAE и латентным настройкам KSampler. Этот узел будет отвечать за настройку

Окно настройки видеоролика, сгенерированного по первому и последнему кадру.

В остальном процесс выстраивания workflow ничем не отличается от других типичных схем для генерации видео с двумя диффузионными моделями. Мы также добавили две LoRA-модели для Wan 2.2, чтобы улучшить детализацию результата.

Готовый workflow будет выглядеть примерно так:

Полный workflow для генерации видеоролика по первому и последнему кадру.

Вот какое видео на базе первого и последнего кадра получилось сгенерировать через ComfyUI.

Драка сисадминов.

Немного поменяем сюжет, сменив первый и последний кадр, после чего вновь повторим генерацию:

Драка сисадминов в дата-центре.

Выводы

Как мы выяснили, ComfyUI является отличным инструментом не только для базовой генерации изображений, но и одной из лучших ИИ-платформ для создания качественных, фотореалистичных видеороликов и анимаций, причем, с различными функциями тонкой настройки параметров генерации. Изучив принципы работы с этим инструментом, перед вами откроется великий простор возможностей для генерации высококачественного контента, который пригодится как для творческой реализации, так и бесконечного списка корпоративных задач.

Автор:

Serverflow