Как установить и запустить новую нейросеть от Сбербанка – Kandinsky 5.0, на Windows

05.02.2026

~ 16 мин

589

Простой

Гайды

Введение

Совсем недавно инженеры “Сбера” представили семейство мультимодальных моделей Kandinsky 5.0 – новое поколение нейросетей, способных создавать как статичные изображения, так и видеоконтент по текстовому описанию. Это тот редкий и выдающийся случай, когда отечественный продукт может потягаться с лидерами рынка на равных.

В этом руководстве мы покажем простейший способ запуска любой модели этого поколения на вычислительных машинах под управлением Windows. В качестве примера будет установлен Kandinsky Video Lite, но инструкция является универсальным пособием для любой модели. Установка конкретной версии отличаются только пайплайном, о чём будет оговорено чуть ниже по тексту. Для более наглядного ознакомления у нас имеется видеогайд на видеохостингах Youtube и Rutube.

Спецификации используемого в гайде пк:

Процессор: Ryzen 5 3600

Материнская плата: MSI B450m PRO M2 MAX

ОЗУ: 2x8GB DDR4 Kingston HyperX FURY Black 3200 МГц

Видеокарта: NVIDIA Tesla V100 32GB

ОС: Windows 10 22h2

Итак, давайте же ознакомимся с линейкой отечественного продукта и разберём предназначение и требования каждой модели.

Семейство моделей Kandinsky 5.0

Всего в поколении выделены три основных модели: Image Lite для генерации изображений, упрощённый генератор видео Video Lite, и полноценная модель Video Pro. У каждой из них разные минимальные условия для запуска и назначения.

Модель	Параметры	Тип задач	Макс. длительность / размер	Рекомендованный VRAM	Ключевые особенности
Kandinsky 5.0 Image Lite	≈6B параметров	Text-to-Image (T2I), Image-to-Image / редактирование	До ~1408×1408 px (оптимально 768–1024 по меньшей стороне)	Мин: ~8 ГБ (512×512); комфортно: 12–16 ГБ для 1024+	Высокое качество изображений, низкий FID, быстрый вывод в distilled-режиме (≈16 шагов).
Kandinsky 5.0 Video Lite	≈2B параметров	Text-to-Video (T2V), Image-to-Video (I2V)	До 5–10 секунд, базовое SD-разрешение 768×512	Мин: ~12 ГБ (512×512, короткие клипы); комфортно: 16–24 ГБ для 768×512 и 5–10 с	Лёгкая и быстрая модель, #1 среди open-source 2B T2V; хорошо работает на массовых GPU (RTX 3060 12 GB, 4070, 3090, 4090, V100 32 GB).
Kandinsky 5.0 Video Pro	≈19B параметров	Pro Text-to-Video, Image-to-Video HD	До 10 секунд, высокое разрешение (HD, 768p+)	Мин: ~24 ГБ (урезанные настройки); комфортно: 48 ГБ+ (FP16/FP8) для полного качества	Максимальное качество видео, сложная динамика и сцены; ориентирована на продакшен, оптимальна для проф/серверных GPU (RTX 6000 Ada, A40, A100, H100).

Примечание: "Минимальный" VRAM указан как нижний предел, допустимый для запуска, он не гарантирует хоть сколько то приемлемого результата.

Если обрисовывать кратко:

Image Lite – модель ориентированная для генерации изображений, самая нетребовательная из представленных.

Video Lite – облегчённая версия для генерации видеороликов до 10 секунд. Гораздо менее требовательная чем Pro-версия, но сильно уступает ей же в качестве.

Video Pro – флагманская версия модели, очень требовательна к железу и даёт максимально качественный результат.

После выбора подходящей модели можно приступать к установке.

Инструкция по установке и запуску на локальном GPU

1. Установка окружения

Ниже приведён пошаговый сценарий подготовки окружения для работы с моделями на локальной видеокарте (Windows / Linux, современный GPU с поддержкой CUDA 12.1 — V100, RTX 30xx, 40xx и т.п.).

Инструкция по установке окружения

1.1. Установка и проверка Python

Скачайте и установите Python 3.10 или 3.11 с официального сайта python.org. На шаге установки обязательно поставьте галочку “Add Python to PATH”.

Проверьте версию Python в терминале (Command Prompt / PowerShell / bash):

python --version

Команда должна вывести установленную версию Python, например Python 3.11.8.

1.2. Установка PyTorch с поддержкой CUDA 12.1

Для Windows и Linux с драйверами, поддерживающими CUDA 12.1, устанавливаем PyTorch 2.5.1 и связанные пакеты из официальнего репозитория download.pytorch.org:

 python -m pip install --upgrade pip 

python -m pip install torch==2.5.1+cu121 torchvision==0.20.1+cu121 torchaudio==2.5.1+cu121 --index-url https://download.pytorch.org/whl/cu121 

Если у вас уже установлен другой PyTorch, рекомендуется работать в отдельном виртуальном окружении (venv или conda), чтобы избежать конфликтов версий.

Проверьте, что GPU виден из PyTorch:

 python -c "import torch; print('CUDA OK:', torch.cuda.is_available(), 'GPU:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else None)" 

Ожидаемый результат: CUDA OK: True и название вашей видеокарты (например, NVIDIA Tesla V100). Если False — проверьте драйверы, версию CUDA Toolkit и что вы запускаете правильный Python.

1.3. Установка библиотек для Diffusers

Для работы с пайплайнами Kandinsky 5.0 в Diffusers установим проверенные совместимые версии зависимостей:

 python -m pip install diffusers==0.36.0 transformers==4.57.3 accelerate==1.12.0 safetensors==0.7.0 huggingface_hub==0.36.0 imageio imageio-ffmpeg 

После успешного выполнения этой команды базовое окружение для работы с Kandinsky 5.0 через Diffusers готово. Далее можно переходить к загрузке моделей и запуску генерации.

Если при установке появляются ошибки ERROR: Could not find a version that satisfies the requirement ..., проверьте:
— версию Python (должна быть 3.10 или 3.11);
— разрядность (нужен 64‑битный Python);
— что вы не используете крайне старую версию pip (обновление см. выше).

2. Установка и запуск Kandinsky

2.1. Создаём рабочую папку и файл

Переходим в документы и создаём папку

Создание папки Кандинского в разделе с документами

Название папки может быть любым, но оно не должно содержать кириллицы и пробелов.

Внутри папки создаём текстовый документ

Здесь и наступает развилка, мы переходим на официальную страницу Кандинского на Hugging Face. И находим там пайплайны для всех версий.

Всё чем отличается установка всех трёх версий – это скопированным вами пайплайном, от того какой пайплайн вы вставите и зависит то какая версия Кандинского установится.

В нашем случае находим пайплайн для версии Lite, копируем его, и вставляем в текстовый документ.

Скопированный пайплайн Кандинского в текстовом документе

Сохраняем и переименовываем документ в формат .py, условия для названия те же что и для папки.

Запускаем:

При первом запуске будут скачаны веса модели (В нашем случае около 10–12 GB) в кэш Hugging Face.

3. Разбор настроек Kandinsky

После догрузки весов можно перейти к детальному разбору настроек, отвечающих за итоговый результат. Ниже пример «официального» профиля под 5‑секундный ролик с упором на качество, который используют в документации и демо.

Пример вызова пайплайна Kandinsky 5.0

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=512,
    width=768,
    num_frames=121,      # ~5 секунд при 24 fps
    num_inference_steps=50,
    guidance_scale=5.0,
).frames[0]

Давайте разберём каждый параметр обособленно:

Ключевые параметры видео‑генерации и практические рекомендации

Параметр	Что делает	Практические рекомендации
prompt	Текстовое описание того, что нужно увидеть в видео: сюжет, стиль, объекты, атмосфера.	Пиши конкретно: кто, что делает, где, как снято (ракурс, стиль, «cinematic lighting», «realistic» и т.п.).
negative_prompt	Список того, чего не должно быть: низкое качество, статичная картинка, 2D мульт, артефакты, лишние конечности, текст и т.д.	Типичный набор: “static, still image, 2d cartoon, low quality, blurry, ugly, deformed, extra limbs, text, watermark” – чистит артефакты без лишнего фанатизма.
height, width	Разрешение кадра в пикселях, влияет на детализацию и расход видеопамяти почти линейно по площади кадра.	384×384 – максимально безопасно для 8–12 ГБ VRAM. 512×512 или 512×768 – комфортно для 12–24 ГБ. Выше 768 по длинной стороне – только если VRAM с запасом.
num_frames	Количество генерируемых кадров; определяет длительность ролика вместе с FPS при экспорте.	При 24 fps: 121 кадр ≈ 5 секунд видео (121 / 24 ≈ 5). 8–16 кадров – быстрый тест, 1–2 секунды при 8–12 fps. 48–96 кадров – 2–4 секунды, уже полноценная сцена. 120+ кадров – 5–10 секунд, VRAM и время растут сильно.
num_inference_steps	Число диффузионных шагов; чем больше шагов, тем тщательнее «прочистка» шума и выше детализация, но дольше рендер.	10–16 – быстрые черновики, заметный шум и артефакты. 20–30 – рабочий баланс для видео: качество/скорость. 50 – максимум качества в демо, но значительно медленнее и тяжелее.
guidance_scale	Сила Classifier‑Free Guidance: насколько строго модель следует промпту (большие значения – «послушнее», но с риском артефактов).	3.0–4.0 – свободнее, больше вариативности, но промпт может выполняться не полностью. 5.0 – рекомендованный баланс для Kandinsky 5.0: хорошее следование тексту без сильной деградации качества. 6.0–7.0 – очень жёсткое следование промпту, чаще появляются странные позы/артефакты.

В качестве напутствия могу посоветовать начинать с меньших height/width и num_frames, убедитесь, что нет ошибки “Out of memory”, затем постепенно повышайте шаги и длительность, пока не упрётесь в VRAM или время рендера. Так вы сумеете добиться максимального качества и выяснить предел своего железа.

В моём конкретном случае пришлось привнести несколько дополнительных параметров для оптимизации.

Первый – вычисления в FP16 а не BF16, просто потому что на V100 отсутствует нативная поддержка этого самого BF16. И дабы избежать ресурсоёмкой эмуляции, все вычисления будут изначально проводится в поддерживаемом формате. Параметр: torch_dtype=torch.float16

Второй параметр – это автоматическая выгрузка части модели из видеопамяти на оперативную память между шагами генерации, чтобы снизить пиковое использование VRAM. Ибо даже внушительных 32-х гигабайт Tesla V100 иногда не хватает чтобы покрыть пиковое потребление модели. Этот параметр полностью исключает ошибку “Out of memory”, даруя стабильность каждому запуску. Но взамен заметно падает скорость генерации и возрастает время инференса. Параметр: pipe.enable_model_cpu_offload()

Заключение

Семейство “Кандинских” однозначно заслуживает вашего внимания. Это модели флагманского уровня, которые устанавливаются чередой очень простых действий, понятных даже новичку. А младшие “Кандинские” не требовательны к железу и позволяют ощупать новые российские технологии без передового железа.

Автор:

Serverflow