Как установить и запустить новую нейросеть от Сбербанка – Kandinsky 5.0, на Windows
Введение
Спецификации используемого в гайде пк:
Семейство моделей Kandinsky 5.0
| Модель | Параметры | Тип задач | Макс. длительность / размер | Рекомендованный VRAM | Ключевые особенности |
|---|---|---|---|---|---|
| Kandinsky 5.0 Image Lite | ≈6B параметров | Text-to-Image (T2I), Image-to-Image / редактирование | До ~1408×1408 px (оптимально 768–1024 по меньшей стороне) | Мин: ~8 ГБ (512×512); комфортно: 12–16 ГБ для 1024+ | Высокое качество изображений, низкий FID, быстрый вывод в distilled-режиме (≈16 шагов). |
| Kandinsky 5.0 Video Lite | ≈2B параметров | Text-to-Video (T2V), Image-to-Video (I2V) | До 5–10 секунд, базовое SD-разрешение 768×512 | Мин: ~12 ГБ (512×512, короткие клипы); комфортно: 16–24 ГБ для 768×512 и 5–10 с | Лёгкая и быстрая модель, #1 среди open-source 2B T2V; хорошо работает на массовых GPU (RTX 3060 12 GB, 4070, 3090, 4090, V100 32 GB). |
| Kandinsky 5.0 Video Pro | ≈19B параметров | Pro Text-to-Video, Image-to-Video HD | До 10 секунд, высокое разрешение (HD, 768p+) | Мин: ~24 ГБ (урезанные настройки); комфортно: 48 ГБ+ (FP16/FP8) для полного качества | Максимальное качество видео, сложная динамика и сцены; ориентирована на продакшен, оптимальна для проф/серверных GPU (RTX 6000 Ada, A40, A100, H100). |
Примечание: "Минимальный" VRAM указан как нижний предел, допустимый для запуска, он не гарантирует хоть сколько то приемлемого результата.
Инструкция по установке и запуску на локальном GPU
1. Установка окружения
Ниже приведён пошаговый сценарий подготовки окружения для работы с моделями на локальной видеокарте (Windows / Linux, современный GPU с поддержкой CUDA 12.1 — V100, RTX 30xx, 40xx и т.п.).
Скачайте и установите Python 3.10 или 3.11 с официального сайта python.org. На шаге установки обязательно поставьте галочку “Add Python to PATH”.
Проверьте версию Python в терминале (Command Prompt / PowerShell / bash):
python --versionPython 3.11.8. Для Windows и Linux с драйверами, поддерживающими CUDA 12.1, устанавливаем PyTorch 2.5.1 и связанные пакеты из официальнего репозитория download.pytorch.org:
python -m pip install --upgrade pip
python -m pip install torch==2.5.1+cu121 torchvision==0.20.1+cu121 torchaudio==2.5.1+cu121 --index-url https://download.pytorch.org/whl/cu121 venv или conda), чтобы избежать конфликтов версий. Проверьте, что GPU виден из PyTorch:
python -c "import torch; print('CUDA OK:', torch.cuda.is_available(), 'GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else None)" CUDA OK: True и название вашей видеокарты (например, NVIDIA Tesla V100). Если False — проверьте драйверы, версию CUDA Toolkit и что вы запускаете правильный Python. Для работы с пайплайнами Kandinsky 5.0 в Diffusers установим проверенные совместимые версии зависимостей:
python -m pip install diffusers==0.36.0 transformers==4.57.3 accelerate==1.12.0 safetensors==0.7.0 huggingface_hub==0.36.0 imageio imageio-ffmpeg ERROR: Could not find a version that satisfies the requirement ..., проверьте:
— версию Python (должна быть 3.10 или 3.11);
— разрядность (нужен 64‑битный Python);
— что вы не используете крайне старую версию
pip (обновление см. выше). 2. Установка и запуск Kandinsky





3. Разбор настроек Kandinsky
Пример вызова пайплайна Kandinsky 5.0
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
height=512,
width=768,
num_frames=121, # ~5 секунд при 24 fps
num_inference_steps=50,
guidance_scale=5.0,
).frames[0]
Ключевые параметры видео‑генерации и практические рекомендации
| Параметр | Что делает | Практические рекомендации |
|---|---|---|
| prompt | Текстовое описание того, что нужно увидеть в видео: сюжет, стиль, объекты, атмосфера. | Пиши конкретно: кто, что делает, где, как снято (ракурс, стиль, «cinematic lighting», «realistic» и т.п.). |
| negative_prompt | Список того, чего не должно быть: низкое качество, статичная картинка, 2D мульт, артефакты, лишние конечности, текст и т.д. | Типичный набор: “static, still image, 2d cartoon, low quality, blurry, ugly, deformed, extra limbs, text, watermark” – чистит артефакты без лишнего фанатизма. |
| height, width | Разрешение кадра в пикселях, влияет на детализацию и расход видеопамяти почти линейно по площади кадра. | 384×384 – максимально безопасно для 8–12 ГБ VRAM. 512×512 или 512×768 – комфортно для 12–24 ГБ. Выше 768 по длинной стороне – только если VRAM с запасом. |
| num_frames | Количество генерируемых кадров; определяет длительность ролика вместе с FPS при экспорте. | При 24 fps: 121 кадр ≈ 5 секунд видео (121 / 24 ≈ 5). 8–16 кадров – быстрый тест, 1–2 секунды при 8–12 fps. 48–96 кадров – 2–4 секунды, уже полноценная сцена. 120+ кадров – 5–10 секунд, VRAM и время растут сильно. |
| num_inference_steps | Число диффузионных шагов; чем больше шагов, тем тщательнее «прочистка» шума и выше детализация, но дольше рендер. | 10–16 – быстрые черновики, заметный шум и артефакты. 20–30 – рабочий баланс для видео: качество/скорость. 50 – максимум качества в демо, но значительно медленнее и тяжелее. |
| guidance_scale | Сила Classifier‑Free Guidance: насколько строго модель следует промпту (большие значения – «послушнее», но с риском артефактов). | 3.0–4.0 – свободнее, больше вариативности, но промпт может выполняться не полностью. 5.0 – рекомендованный баланс для Kandinsky 5.0: хорошее следование тексту без сильной деградации качества. 6.0–7.0 – очень жёсткое следование промпту, чаще появляются странные позы/артефакты. |