Локальный Kandinsky 5.0: генерация изображений и видео у вас дома или в офисе

16.12.2025

~ 15 мин

6459

Простой

Статьи

Введение

Kandinsky 5.0 — это редкий для России случай, когда новая технологическая разработка не только догоняет популярные проекты, но и не уступает им по качеству. Пятое поколение моделей от Sber стало большой вехой: впервые полноценная DiT-архитектура от отечественных разработчиков с поддержкой текстовой, визуальной и видеогенерации оказалась доступна каждому: от ИИ-энтузиастов с домашним ПК до корпоративных инженеров, локально запускающие ИИ-модели на GPU-серверах. И самое главное, что все это доступно в open-source, без облаков, подписок или внешних сервисов — все доступно локально, работает автономно и выдает потрясающее качество изображения и видео. В этой статье специалисты компании ServerFlow расскажут вам, что стоит за успехом Kandinsky 5.0, какие модели вошли в это семейство, что нужно для их локального развертывания и почему вам обязательно стоит опробовать функционал этих передовых отечественных сетей.

Что такое Kandinsky 5.0 и что под капотом у моделей

История ИИ-моделей Kandinsky начинается еще с модели ruDall-E, которая была разработана ИИ-лабораторией Sber AI еще в 2021 году. Год спустя, в 2022 году, свет увидела нейросеть Kandinsky, которая и стала родоначальником передовой линейки российских диффузионных ИИ. Однако Kandinsky 5.0 — это не просто минорное обновление предыдущей серии генеративных ИИ Сбера, а фактически новый класс моделей, созданный на инновационной гибридной архитектуре Diffusion Transformer. В сравнении с моделью Kandinsky 4.0, которая была стандартной диффузионкой с U-Net-подходом, переход Kandinsky 5.0 стал важным апйредом до более совершенной ИИ-платформы, обеспечивающий большую стабильность, предсказуемость и качество генерации. Теперь же в основе Kandinsky лежат — трансформерно-диффузионные блоки CrossDiT, новые токенайзеры, мощные энкодеры на базе HunyuanVideo 3D VAE и CLIP-модель Qwen2.5-VL, а также совершенно другая логика формирования изображения и видео.

Пайплайн ИИ-моделей Kandinsky 5.0. Источник: GitHub.

Пятое поколение Kandinsky предлагает следующие подходы к генерации контента:

T2I — генерация изображения по тексту;
I2I — перерисовка или преобразование готового изображения;
T2V — создание видеороликов по описанию;
I2V — создание видео на основе единственного исходного кадра.

Да, Kandinsky 5.0 дает полноценный стек возможностей для генерации контента. Да, это отечественная нейронка. Да, все находится в open-source. Нам самим с трудом верится, что все перечисленные факторы слились воедино, но это факт.

Архитектура ИИ-моделей Kandinsky 5.0. Источник: GitHub.

Как работает генерация T2I, I2I, T2V и I2V

Логика генерации в Kandinsky 5.0 непохожа на то, какой подход используется в продвинутых диффузионных моделях, вроде FLUX и Qwen-Image, поскольку отечественное семейство моделей использует модифицированную архитектуру диффузионного трансформера CrossDiT. Процесс генерации происходит следующим образом:

Сначала текст или изображение разбивается на токены через VAE/Tokenizer для последующей обработки;
Затем эти токены проходят через слои трансформера, где формируется скрытое представление;
Далее начинается диффузионный процесс — пошаговое восстановление визуальной структуры через последовательное уменьшение шума в скрытом представлении;
Для видео используется KV AE 3D Tokenizer — механизм, который кодирует не просто кадры, а временную структуру видео. Это позволяет создавать целостные ролики, а не набор несвязанных картинок.

Разнообразие ИИ-моделей семейства Kandinsky 5.0. Источник: GitHub.

Почему Kandinsky 5.0 — прорыв отечественной ИИ-индустрии?

Kandinsky 5.0 стал крайне важным релизом, и не столько для открытого ИИ-сообщества, сколько для российской технологической экосистемы. И это не какой-нибудь простенький ИИ-стек, чтобы показать: “Смотрите, мы тоже умеем в нейросети”. Нейросеть способна дать то, на чем другие зарубежные ИИ-модели спотыкаются — Kandinsky 5.0 отлично понимает русский язык: синтаксис, контекст, культурные объекты и реалии без дополнительных ухищрений. Kandinsky 5.0 — это первая в мире генеративная ИИ-модель, которая понимает, что такое жигуль, хрущевка, ларек, и может воссоздать их в HD-качестве по вашему запросу.

При этом, качество генерации как видео, так и изображений, находится действительно на премиальном уровне, а модели остаются доступными для локального развертывания благодаря реализации самых разных версий нейронок. И это разнообразие — вовсе не маркетинговый жест, а необходимость. Lite-версии позволяют работать на бюджетном железе железе, а Pro-версии обеспечивают максимально возможное качество и глубину сцены. SFT-версии подходят для художественных запросов, Pretrain — для экспериментов и дообучения. Distilled — для компромисса между скоростью и качеством.

Линейка Kandinsky 5.0: Image Lite, Video Lite, Video Pro

Давайте рассмотрим основную линейку моделей, которые вошли в семейство Kandinsky 5.0.

Image Lite 5.0 — практичный вариант для T2I и I2I

Image Lite — самый удобный выбор для локальной генерации изображений и ваш входной билет для познания всех преимуществ Kandinsky 5.0. Эти компактные модели объемом 6 миллиардов параметров можно запустить даже на потребительском железе с GPU на 8-12 ГБ VRAM, при этом Image Lite обеспечивают высочайшее качество генерации контента и текстовых элементов для своего класса. Image Lite поддерживает T2I (text-to-image) и I2I (image-to-image) и доступна на Hugging Face и GitHub в форматах SafeTensors. Все семейство Image Lite доступно в нескольких вариациях: SFT для более точного следования инструкциям и наиболее высокого качества, а также Pretrain для дообучения, тонкой настройки и внедрения LoRA (официальные LoRA-адаптеры также предоставлены). Нейросети Image Lite 5.0 поддерживают генерацию изображений в разрешениях 1280x768, 1024x1024 и других 1К с задержкой около 13 секунд. Для обеспечения возможностей редактирования сгенерированного контента Сбер также выложил модели Kandinsky 5.0 T2I Editing и retrain-версию. По сути, это те же Image Lite с 6 миллиардов параметров, но с функций выделения определенных областей изображения, которые необходимо видоизменить. В ассортименте имеются как diffusers-совместимые модели, так и оригинальные, голые веса.

Video Lite — легкая система для локальной генерации видео

Video Lite — настоящая находка для тех, кто хочет попробовать ИИ-видеогенерацию даже на слабом железе уровня потребительских ноутбуков. Модели имеют размер всего в 2 миллиардов параметров, при этом обеспечивают отличное качество видеогенерации для своего уровня и даже обходят более крупные аналоги, такие как Wan2.2 A14B. Длительность видео варьируется от 5 до 10 секунд, а задержка при генерации может достигать 224 секунд в зависимости от типа модели Video Lite. Сбер предлагает несколько модификаций Video Lite: SFT для высочайшего качества, CFG-distilled для быстрой генерации, Diffusion-distilled для быстрой генерации без потери качества и Pretrain для тонкой настройки. Доступны как T2V (text-to-video), так и I2V (image-to-video). Video Lite работает даже на картах уровня RTX 3060 Ti или RTX 4070, хотя для более комфортной генерации лучше иметь 14-20 ГБ VRAM.

Video Pro — флагманская модель на 19B параметров

Video Pro — это флагманская модель семейства Kandinsky 5.0. Video Pro имеет 19 миллиардов параметров и ориентирована на профессиональные задачи: генерацию кинематографических сцен в HD-качестве, длинных видеороликов, насыщенных деталями, видео с динамичным движением камеры и т.д.. Отечественная модель достигает производительности на уровне передовой открытой модели Wan 2.2 A14B и близится к качеству генерации проприетарной модели Google Veo 3. Ввиду внушительного объема, для комфортного инференса Video Pro без мощного железа уже не обойтись: рекомендуется использовать GPU уровня H100, MI210 или, в крайнем случае, RTX 4090 с оптимизациями и уменьшением разрешения. В зависимости от модификаций, Video Pro поддерживает генерацию роликов длительностью от 5 до 10 секунд с задержкой вывода до 1241 секунд. Доступны две версии передового генеративного ИИ: SFT для высочайшего качества и Pretrain для тонкой настройки.

Если Video Lite и Image Lite — это решения для ИИ-энтузиастов, то Video Pro — это уже реальный продакшен-уровень. Именно Video Pro стала магнум-опусом ИИ-специалистов Сбера и именно благодаря этой модели Kandinsky 5.0 стал одним из самых крупных open-source релизом в Европе за последнее время. Отечественным разработчикам впервые удалось создать видеомодель мирового уровня, которую можно даже запустить локально, пусть и на мощных ИИ-ускорителях. Это огромный вклад в развитие ИИ-технологий РФ, и это дает надежду на то, что в будущем Россия представит еще более мощные нейросети, которые признает весь мир.

Локальный запуск Kandinsky 5.0: требования, установка, нюансы

Все модели размещены на Hugging Face и GitHub. Оптимально использовать Hugging Face CLI — он корректно подтягивает веса, позволяет использовать diffusers-модели и обеспечивает полную совместимость с существующими пайплайнами. Команды максимально простые и доступны в open-source библиотеках вместе с весами и всей необходимой технической документацией.

Системные требования зависят от типа модели. Вот минимальные ориентиры по железу:

Image Lite: от 8 до 12 ГБ VRAM, возможен CPU-инференс (но очень медленный), оптимальны видеокарты 3060, 4060, 4070, 4090.
Video Lite: от 14 до 20 ГБ VRAM, уверенно работает на 3090, 4080, 4090 — особенно в сочетании с оптимизациями PyTorch.
Video Pro: от 40 до 80+ ГБ VRAM, но для действительно эффективной работы понадобится H100, MI210, либо 4090 с оптимизациями FlashAttention 3.

Модель Kandinsky 5.0 Video Lite совместима с генеративным ИИ-интерфейсом ComfyUI: нейросеть легко интегрируется в существующие рабочие процессы, а видеопайплайн запускается практически без изменений.

Пока доступны только полноразмерные версии в FP16, однако не исключено, что в будущем пользователи добавят 4-битные квантизации вроде Q4_K_M, которые уменьшат объем моделей в 3-4 раза без существенной потери качества генерации. Тем не менее, ИИ-энтузиасты в основном ориентируются на англоязычные модели, поэтому квантизация Kandinsky может появиться не скоро — вся надежда на российских ML-экспертов.

Примеры генерации: изображения, видео, сравнение возможностей

Мы решили протестировать ИИ-модели Kandinsky 5.0 в действии, сгенерировав несколько изображений через локальные LLM специально для вас!

ИИ-сервер на базе Nvidia H100.

Сибирский дата-центр.

Выгрузка Nvidia H100 из газели.

Выводы

Kandinsky 5.0 — это не просто российская альтернатива Stable Diffusion, FLUX и Wan, а полноценный технологический рывок, который доказывает, что отечественные разработчики способны создать ИИ-продукт мирового уровня. Модели семейства Kandinsky 5.0 впечатляют не только качеством изображений и видео, но и продуманностью всей линейки: Lite-версии идеально подходят для массовых устройств, тогда как Pro-модели открывают путь к профессиональной генерации. Да, на Hugging Face у модели не взрывная статистика скачиваний — русскоязычная модель на англоязычной платформе всегда в неравном положении, а загрузки размыты между десятками разных версий Kandinsky 5.0. Но качество говорит само за себя: Kandinsky 5.0 — крепкие, зрелые, глубокие ИИ-модели, которые ни в чем не уступают зарубежным аналогам. А если вы решили опробовать возможности локальных моделей Kandinsky 5.0, то все необходимое железо вы можете приобрести в интернет-магазине ServerFlow. Обратитесь за консультацией к нашим специалистам и мы подберем оптимальную конфигурацию для инференса передовых моделей искусственного интеллекта.

Автор:

Serverflow