Apple выпустила в открытый доступ семейство моделей STARFlow — масштабируемую архитектуру авторегрессионных потоков на базе трансформеров для генерации фото- и видеоконтента. Технология предлагает альтернативу доминирующим диффузионным моделям.Обе модели демонстрируют результаты, сопоставимые с современными диффузионными системами в задачах text-to-image и text-to-video.
Подробнее о STARFlow и STARFlow-V
STARFlow использует принцип обратимых преобразований, что позволяет выполнять прямое и обратное отображение данных за один шаг — в отличие от многоэтапного процесса денойзинга в диффузионных моделях. Архитектура основана на 6-блочной схеме ИИ-трансформера с позиционным кодированием RoPE и поддержкой смешанной точности вычислений. Для работы с текстовыми описаниями применяется мощный энкодер T5-XL, а для сжатия изображений и видео — специализированные VAE: SD-VAE в версии для изображений и WAN2.2-VAE в видео-модели. Среди главных преимуществ можно выделить причинно-следственное внимание в STARFlow-V для обеспечения временной согласованности кадров и алгоритм поблочной итерации Якоби, ускоряющий процесс генерации.
STARFlow ориентирована на генерацию изображений с разрешением 256×256 пикселей и содержит 3 миллиардов параметров. Ее видео-аналог STARFlow-V с 7 миллиардов параметров поддерживает создание роликов длиной до 81 кадра (~5 секунд) в разрешении до 480p. Обе модели демонстрируют гибкость в работе с различными соотношениями сторон и разрешениями, а их обучение масштабируется благодаря распределенной стратегии FSDP. Благодаря небольшому количеству параметров, для инференса STARFlow-3b в FP16 необходимо минимум 8 ГБ VRAM, а для запуска STARFlow-V-7b необходимо минимум 18 ГБ VRAM.
Выводы
STARFlow знаменует собой важный этап в развитии генеративных моделей, предлагая эффективную альтернативу диффузионным подходам. Технология открывает перспективы для создания более предсказуемых и контролируемых ИИ-систем для генерации изображений и видео. Открытый доступ к коду и моделям ускорит дальнейшие исследования в области нормализующих потоков и их применений в генерации мультимодального контента.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.