Apple представила STARFlow и STARFlow-V: компактные ИИ-генераторы видео и изображений

03.12.2025

~ 2 мин

165

Простой

Новости

Введение

Apple выпустила в открытый доступ семейство моделей STARFlow — масштабируемую архитектуру авторегрессионных потоков на базе трансформеров для генерации фото- и видеоконтента. Технология предлагает альтернативу доминирующим диффузионным моделям.Обе модели демонстрируют результаты, сопоставимые с современными диффузионными системами в задачах text-to-image и text-to-video.

Подробнее о STARFlow и STARFlow-V

STARFlow использует принцип обратимых преобразований, что позволяет выполнять прямое и обратное отображение данных за один шаг — в отличие от многоэтапного процесса денойзинга в диффузионных моделях. Архитектура основана на 6-блочной схеме ИИ-трансформера с позиционным кодированием RoPE и поддержкой смешанной точности вычислений. Для работы с текстовыми описаниями применяется мощный энкодер T5-XL, а для сжатия изображений и видео — специализированные VAE: SD-VAE в версии для изображений и WAN2.2-VAE в видео-модели. Среди главных преимуществ можно выделить причинно-следственное внимание в STARFlow-V для обеспечения временной согласованности кадров и алгоритм поблочной итерации Якоби, ускоряющий процесс генерации.

STARFlow ориентирована на генерацию изображений с разрешением 256×256 пикселей и содержит 3 миллиардов параметров. Ее видео-аналог STARFlow-V с 7 миллиардов параметров поддерживает создание роликов длиной до 81 кадра (~5 секунд) в разрешении до 480p. Обе модели демонстрируют гибкость в работе с различными соотношениями сторон и разрешениями, а их обучение масштабируется благодаря распределенной стратегии FSDP. Благодаря небольшому количеству параметров, для инференса STARFlow-3b в FP16 необходимо минимум 8 ГБ VRAM, а для запуска STARFlow-V-7b необходимо минимум 18 ГБ VRAM.

Выводы

STARFlow знаменует собой важный этап в развитии генеративных моделей, предлагая эффективную альтернативу диффузионным подходам. Технология открывает перспективы для создания более предсказуемых и контролируемых ИИ-систем для генерации изображений и видео. Открытый доступ к коду и моделям ускорит дальнейшие исследования в области нормализующих потоков и их применений в генерации мультимодального контента.

Автор:

Serverflow