Top.Mail.Ru
Как установить и запустить новую нейросеть от Сбербанка – Kandinsky 5.0, на Windows | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Бонус за
обратную связь
Интернет-магазин
Серверного оборудования
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Как установить и запустить новую нейросеть от Сбербанка – Kandinsky 5.0, на Windows

~ 16 мин
589
Простой
Гайды
Как установить и запустить новую нейросеть от Сбербанка – Kandinsky 5.0, на Windows

Введение

Совсем недавно инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 – новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию. Это тот редкий и выдающийся случай, когда отечественный продукт может потягаться с лидерами рынка на равных.

В этом руководстве мы покажем простейший способ запуска любой модели этого поколения на вычислительных машинах под управлением Windows. В качестве примера будет установлен Kandinsky Video Lite, но инструкция является универсальным пособием для любой модели. Установка конкретной версии отличаются только пайплайном, о чём будет оговорено чуть ниже по тексту. Для более наглядного ознакомления у нас имеется видеогайд на видеохостингах Youtube и Rutube. 

Спецификации используемого в гайде пк:

Процессор: Ryzen 5 3600
Материнская плата: MSI B450m PRO M2 MAX
ОЗУ: 2x8GB DDR4 Kingston HyperX FURY Black 3200 МГц
Видеокарта: NVIDIA Tesla V100 32GB
ОС: Windows 10 22h2

Итак, давайте же ознакомимся с линейкой отечественного продукта и разберём предназначение и требования каждой модели.

Семейство моделей Kandinsky 5.0

Всего в поколении выделены три основных модели: Image Lite для генерации изображений, упрощённый генератор видео Video Lite, и полноценная модель Video Pro. У каждой из них разные минимальные условия для запуска и назначения.
Модель Параметры Тип задач Макс. длительность / размер Рекомендованный VRAM Ключевые особенности
Kandinsky 5.0 Image Lite ≈6B параметров Text-to-Image (T2I), Image-to-Image / редактирование До ~1408×1408 px (оптимально 768–1024 по меньшей стороне) Мин: ~8 ГБ (512×512); комфортно: 12–16 ГБ для 1024+ Высокое качество изображений, низкий FID, быстрый вывод в distilled-режиме (≈16 шагов).
Kandinsky 5.0 Video Lite ≈2B параметров Text-to-Video (T2V), Image-to-Video (I2V) До 5–10 секунд, базовое SD-разрешение 768×512 Мин: ~12 ГБ (512×512, короткие клипы); комфортно: 16–24 ГБ для 768×512 и 5–10 с Лёгкая и быстрая модель, #1 среди open-source 2B T2V; хорошо работает на массовых GPU (RTX 3060 12 GB, 4070, 3090, 4090, V100 32 GB).
Kandinsky 5.0 Video Pro ≈19B параметров Pro Text-to-Video, Image-to-Video HD До 10 секунд, высокое разрешение (HD, 768p+) Мин: ~24 ГБ (урезанные настройки); комфортно: 48 ГБ+ (FP16/FP8) для полного качества Максимальное качество видео, сложная динамика и сцены; ориентирована на продакшен, оптимальна для проф/серверных GPU (RTX 6000 Ada, A40, A100, H100).
Примечание: "Минимальный" VRAM указан как нижний предел, допустимый для запуска, он не гарантирует хоть сколько то приемлемого результата.
Если обрисовывать кратко:

Image Lite – модель ориентированная для генерации изображений, самая нетребовательная из представленных.

Video Lite – облегчённая версия для генерации видеороликов до 10 секунд. Гораздо менее требовательная чем Pro-версия, но сильно уступает ей же в качестве.

Video Pro – флагманская версия модели, очень требовательна к железу и даёт максимально качественный результат.

После выбора подходящей модели можно приступать к установке.

Инструкция по установке и запуску на локальном GPU

1. Установка окружения

Ниже приведён пошаговый сценарий подготовки окружения для работы с моделями на локальной видеокарте (Windows / Linux, современный GPU с поддержкой CUDA 12.1 — V100, RTX 30xx, 40xx и т.п.).

Инструкция по установке окружения
1.1. Установка и проверка Python

Скачайте и установите Python 3.10 или 3.11 с официального сайта python.org. На шаге установки обязательно поставьте галочку “Add Python to PATH”.

Проверьте версию Python в терминале (Command Prompt / PowerShell / bash):

python --version
Команда должна вывести установленную версию Python, например Python 3.11.8.
1.2. Установка PyTorch с поддержкой CUDA 12.1

Для Windows и Linux с драйверами, поддерживающими CUDA 12.1, устанавливаем PyTorch 2.5.1 и связанные пакеты из официальнего репозитория download.pytorch.org:

python -m pip install --upgrade pip python -m pip install torch==2.5.1+cu121 torchvision==0.20.1+cu121 torchaudio==2.5.1+cu121 --index-url https://download.pytorch.org/whl/cu121
Если у вас уже установлен другой PyTorch, рекомендуется работать в отдельном виртуальном окружении (venv или conda), чтобы избежать конфликтов версий.

Проверьте, что GPU виден из PyTorch:

python -c "import torch; print('CUDA OK:', torch.cuda.is_available(), 'GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else None)"
Ожидаемый результат: CUDA OK: True и название вашей видеокарты (например, NVIDIA Tesla V100). Если False — проверьте драйверы, версию CUDA Toolkit и что вы запускаете правильный Python.
1.3. Установка библиотек для Diffusers

Для работы с пайплайнами Kandinsky 5.0 в Diffusers установим проверенные совместимые версии зависимостей:

python -m pip install diffusers==0.36.0 transformers==4.57.3 accelerate==1.12.0 safetensors==0.7.0 huggingface_hub==0.36.0 imageio imageio-ffmpeg
После успешного выполнения этой команды базовое окружение для работы с Kandinsky 5.0 через Diffusers готово. Далее можно переходить к загрузке моделей и запуску генерации.
Если при установке появляются ошибки ERROR: Could not find a version that satisfies the requirement ..., проверьте:
— версию Python (должна быть 3.10 или 3.11);
— разрядность (нужен 64‑битный Python);
— что вы не используете крайне старую версию pip (обновление см. выше).

2. Установка и запуск Kandinsky

2.1. Создаём рабочую папку и файл

Переходим в документы и создаём папку

Создание папки Кандинского в разделе с документами

Название папки может быть любым, но оно не должно содержать кириллицы и пробелов.

Внутри папки создаём текстовый документ

Создание текстового документа

Здесь и наступает развилка, мы переходим на официальную страницу Кандинского на Hugging Face. И находим там пайплайны для всех версий.

Пайплайны Кандинского

Всё чем отличается установка всех трёх версий – это скопированным вами пайплайном, от того какой пайплайн вы вставите и зависит то какая версия Кандинского установится.

В нашем случае находим пайплайн для версии Lite, копируем его, и вставляем в текстовый документ.

Скопированный пайплайн Кандинского в текстовом документе

Сохраняем и переименовываем документ в формат .py, условия для названия те же что и для папки.

Запускаем:

Запущенный Кандинский

При первом запуске будут скачаны веса модели (В нашем случае около 10–12 GB) в кэш Hugging Face. 

3. Разбор настроек Kandinsky

После догрузки весов можно перейти к детальному разбору настроек, отвечающих за итоговый результат. Ниже пример «официального» профиля под 5‑секундный ролик с упором на качество, который используют в документации и демо.

Пример вызова пайплайна Kandinsky 5.0

output = pipe( prompt=prompt, negative_prompt=negative_prompt, height=512, width=768, num_frames=121, # ~5 секунд при 24 fps num_inference_steps=50, guidance_scale=5.0, ).frames[0]
Давайте разберём каждый параметр обособленно:

Ключевые параметры видео‑генерации и практические рекомендации

Параметр Что делает Практические рекомендации
prompt Текстовое описание того, что нужно увидеть в видео: сюжет, стиль, объекты, атмосфера. Пиши конкретно: кто, что делает, где, как снято (ракурс, стиль, «cinematic lighting», «realistic» и т.п.).
negative_prompt Список того, чего не должно быть: низкое качество, статичная картинка, 2D мульт, артефакты, лишние конечности, текст и т.д. Типичный набор: “static, still image, 2d cartoon, low quality, blurry, ugly, deformed, extra limbs, text, watermark” – чистит артефакты без лишнего фанатизма.
height, width Разрешение кадра в пикселях, влияет на детализацию и расход видеопамяти почти линейно по площади кадра. 384×384 – максимально безопасно для 8–12 ГБ VRAM. 512×512 или 512×768 – комфортно для 12–24 ГБ. Выше 768 по длинной стороне – только если VRAM с запасом.
num_frames Количество генерируемых кадров; определяет длительность ролика вместе с FPS при экспорте. При 24 fps: 121 кадр ≈ 5 секунд видео (121 / 24 ≈ 5). 8–16 кадров – быстрый тест, 1–2 секунды при 8–12 fps. 48–96 кадров – 2–4 секунды, уже полноценная сцена. 120+ кадров – 5–10 секунд, VRAM и время растут сильно.
num_inference_steps Число диффузионных шагов; чем больше шагов, тем тщательнее «прочистка» шума и выше детализация, но дольше рендер. 10–16 – быстрые черновики, заметный шум и артефакты. 20–30 – рабочий баланс для видео: качество/скорость. 50 – максимум качества в демо, но значительно медленнее и тяжелее.
guidance_scale Сила Classifier‑Free Guidance: насколько строго модель следует промпту (большие значения – «послушнее», но с риском артефактов). 3.0–4.0 – свободнее, больше вариативности, но промпт может выполняться не полностью. 5.0 – рекомендованный баланс для Kandinsky 5.0: хорошее следование тексту без сильной деградации качества. 6.0–7.0 – очень жёсткое следование промпту, чаще появляются странные позы/артефакты.
В качестве напутствия могу посоветовать начинать с меньших height/width и num_frames, убедитесь, что нет ошибки “Out of memory”, затем постепенно повышайте шаги и длительность, пока не упрётесь в VRAM или время рендера. Так вы сумеете добиться максимального качества и выяснить предел своего железа.

В моём конкретном случае пришлось привнести несколько дополнительных параметров для оптимизации.

Первый – вычисления в FP16 а не BF16, просто потому что на V100 отсутствует нативная поддержка этого самого BF16. И дабы избежать ресурсоёмкой эмуляции, все вычисления будут изначально проводится в поддерживаемом формате. Параметр: torch_dtype=torch.float16  

Второй параметр – это автоматическая выгрузка части модели из видеопамяти на оперативную память между шагами генерации, чтобы снизить пиковое использование VRAM. Ибо даже внушительных 32-х гигабайт Tesla V100 иногда не хватает чтобы покрыть пиковое потребление модели. Этот параметр полностью исключает ошибку “Out of memory”, даруя стабильность каждому запуску. Но взамен заметно падает скорость генерации и возрастает время инференса. Параметр:  pipe.enable_model_cpu_offload()

Заключение

Семейство “Кандинских” однозначно заслуживает вашего внимания. Это модели флагманского уровня, которые устанавливаются чередой очень простых действий, понятных даже новичку. А младшие “Кандинские” не требовательны к железу и позволяют ощупать новые российские технологии без передового железа.
Автор: Serverflow Serverflow
Поделиться

Комментарии 1

Написать комментарий
Guest
Итог то какой?
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)