Компания Alibaba выпустила в открытый доступ новую ИИ-модель, предназначенную для генерации анимаций по текстовым запросам и референсным изображениям — Wan2.2-Animate-14B.
Подробнее о Wan2.2-Animate-14B
Wan2.2-Animate-14B привносит ряд инновационных нововведений, которые обеспечивают превосходное качество сгенерированных анимаций, высокую скорость и производительность. Во-первых, Wan2.2-Animate-14B базируется на архитектуре MoE, которая выполняет видеодиффузию — два эксперта объемом примерно 14 миллиардов параметров (всего 27 миллиардов параметров) разделяют процесс шумоподавления на временные этапы, что увеличивает производительность генерации без роста затрат использования системных ресурсов. Во-вторых, модель обучена на тщательно отобранных кинематографичных данных с детальными параметрами освещения, композиции, контраста, цветовой палитры и других характеристик, к тому же, в датасете на 65,6% больше изображений и на 83,2% больше видео, чем в модели Wan2.1. Такой подход обеспечивает точный контроль над созданием контента с фотореалистичным качеством и позволяет настраивать итоговый результат под конкретные задачи.
Помимо этого, Wan2.2 работает в связке с моделью объемом в 5 миллиардов параметров, разработанной на базе усовершенствованного Wan2.2-VAE со степенью сжатия 16×16×4, что позволяет генерировать анимированные материалы с разрешением 720p и 24 FPS, при этом запустить Wan2.2-Animate-14B можно даже на потребительских GPU уровня RTX 4090. Это делает нейросеть Alibaba одной из самых быстрых моделей для генерации анимаций 720P@24fps, которая пригодна для промышленного и исследовательского применения. Модель Wan-Animate также поддерживает два режима анимации: генерация видео с передачей движений человека с исходного изображения персонажа или замена персонажа в исходном видео на предоставленное изображение. Перед обработкой входное изображение требует предварительной подготовки и сегментации на отдельные компоненты.
Выводы
Alibaba не сбавляет обороты и, по всей видимости, планирует вытеснить все ИИ-модели конкурентов с поля генерации медиаконтента. Скачать веса нейросети Wan2.2-Animate-14B уже можно на платформе Hugging Face, а в скором времени LLM для генерации анимаций появится на платформе ComfyUI в наборе Kijai's ComfyUI WanVideoWrapper, а также на FastVideo и DiffSynth-Studio.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.