Top.Mail.Ru
Apple представила STARFlow и STARFlow-V: компактные ИИ-генераторы видео и изображений | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Из-за нестабильности цен RAM фактическая стоимость может отличаться. Цена подтверждается после оформления заказа, работаем над обновлением цен!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Apple представила STARFlow и STARFlow-V: компактные ИИ-генераторы видео и изображений

~ 2 мин
40
Простой
Новости
Apple представила STARFlow и STARFlow-V: компактные ИИ-генераторы видео и изображений

Введение

Apple выпустила в открытый доступ семейство моделей STARFlow — масштабируемую архитектуру авторегрессионных потоков на базе трансформеров для генерации фото- и видеоконтента. Технология предлагает альтернативу доминирующим диффузионным моделям.Обе модели демонстрируют результаты, сопоставимые с современными диффузионными системами в задачах text-to-image и text-to-video.

Подробнее о STARFlow и STARFlow-V

STARFlow использует принцип обратимых преобразований, что позволяет выполнять прямое и обратное отображение данных за один шаг — в отличие от многоэтапного процесса денойзинга в диффузионных моделях. Архитектура основана на 6-блочной схеме ИИ-трансформера с позиционным кодированием RoPE и поддержкой смешанной точности вычислений. Для работы с текстовыми описаниями применяется мощный энкодер T5-XL, а для сжатия изображений и видео — специализированные VAE: SD-VAE в версии для изображений и WAN2.2-VAE в видео-модели. Среди главных преимуществ можно выделить причинно-следственное внимание в STARFlow-V для обеспечения временной согласованности кадров и алгоритм поблочной итерации Якоби, ускоряющий процесс генерации.

STARFlow ориентирована на генерацию изображений с разрешением 256×256 пикселей и содержит 3 миллиардов параметров. Ее видео-аналог STARFlow-V с 7 миллиардов параметров поддерживает создание роликов длиной до 81 кадра (~5 секунд) в разрешении до 480p. Обе модели демонстрируют гибкость в работе с различными соотношениями сторон и разрешениями, а их обучение масштабируется благодаря распределенной стратегии FSDP. Благодаря небольшому количеству параметров, для инференса STARFlow-3b в FP16 необходимо минимум 8 ГБ VRAM, а для запуска STARFlow-V-7b необходимо минимум 18 ГБ VRAM.

Выводы

STARFlow знаменует собой важный этап в развитии генеративных моделей, предлагая эффективную альтернативу диффузионным подходам. Технология открывает перспективы для создания более предсказуемых и контролируемых ИИ-систем для генерации изображений и видео. Открытый доступ к коду и моделям ускорит дальнейшие исследования в области нормализующих потоков и их применений в генерации мультимодального контента.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)