Сбер опубликовал всю линейку визуальных моделей Kandinsky 5.0 в открытом доступе, выложив код и веса под лицензией MIT на и . Такой формат делает модели полностью свободными для модификации, интеграции и коммерческого использования, что заметно снижает порог входа для разработчиков. В ИИ-стек Kandinsky 5.0 вошли четыре ключевых компонента: Image Lite, Video Lite, Video Pro и вариационные автоэнкодеры K-VAE 1.0.
Подробнее о Kandinsky 5.0
Модели Image Lite объемом 6 миллиардов параметров, предназначенные для HD-генерации и редактирования изображений, были обучены на корпусе данных из 520 миллионов картинок, включая данные русского культурного контекста. Для улучшения производительности в задачах редактирования использовалось дополнительное дообучение на 150 миллионах пар изображений. По результатам независимых тестов модели превосходят популярную модель FLUX.1 dev в генерации и сопоставимы с нейронкой FLUX.1 Kontext по качеству редактирования. Нейросеть Video Lite объемом 2 миллиардов параметров, ориентированная генерацию видео, доступна для запуска на видеокартах от 12 ГБ и построена на данных из 520 миллионов изображений и 120 миллионов видео. По метрикам она значительно превосходит более крупную модель WAN 2.1-14B, имея в 8 раз меньшие размеры, чем у нейросети Alibaba. Video Pro является флагманской моделью для HD-видео длиной до 10 секунд и даже поддерживает управление движением камеры и ее ракурсом. Video Pro обучена на 520 миллионах изображений и 250 миллионах видео, а затем дообучена на вручную отобранных художниками роликах. По тестам SBS она превосходит Wan 2.2-A14B и при этом демонстрирует визуальное качество и динамику на уровне топовой модели Google Veo 3. Также в релиз вошло семейство K-VAE 1.0, которое включает двумерные и трехмерные автоэнкодеры со степенью сжатия 8×8 и 4×8×8. На открытых датасетах эти автоэнкодеры обеспечивают лучшее восстановление по сравнению с Hunyuan, Flux и Wan при одинаковой степени компрессии.
Пайплан Kandinsky 5.0. Источник: .
Выводы
Линейка Kandinsky 5.0 выходит не просто как набор моделей, а как полноценный открытый фреймворк с современными ИИ-архитектурами для выполнения разных типов задач генеративного ИИ. Благодаря доступности и впечатляющей производительности, линейка Kandinsky 5.0 может стать отличным решением для выстраивания эффективных рабочих процессов в популярных ИИ-интерфейсах, например, ComfyUI. Опробовать возможности Kandinsky 5.0 также можно на отечественной платформе .
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.