SGLang Diffusion — ИИ-движок для ускорения генерации изображений и видео

09.11.2025

~ 2 мин

492

Простой

Новости

Введение

Команда разработчиков LMSYS представила передовой движок инференса SGLang Diffusion, который базируется на платформе SGLang и предназначен для инференса диффузионных ИИ-моделей. SGLang Diffusion призван значительно увеличить скорость генерации изображений и видео, сохраняя простоту интеграции и масштабируемость оригинального движка.

Подробнее о SGLang Diffusion

SGLang Diffusion объединяет языковые и диффузионные возможности в единой высокопроизводительной экосистеме. Этот подход отражает тенденцию развития генеративного ИИ, где архитектуры авторегрессионных и диффузионных моделей все чаще интегрируются. SGLang Diffusion поддерживает ведущие открытые диффузионные модели для генерации видео и изображений, включая Wan, Hunyuan, Qwen-Image, Qwen-Image-Edit и Flux. Платформа обеспечивает до 1,2-кратного ускорения при различных нагрузках и предлагает несколько способов взаимодействия — через OpenAI-совместимый API, командную строку и Python-интерфейс. Разработка ведется в сотрудничестве с командой открытого проекта FastVideo, что позволяет создать полноценную замкнутую экосистему для диффузионных моделей — от обучения до эксплуатации в продакшене.

Тест производительности SGL Diffusion на графическом процессоре H100. Источник: LMSYS.

Архитектура SGLang Diffusion включает:

ComposedPipelineBase — гибкая система модульных этапов (PipelineStages), таких как DenoisingStage и DecodingStage;
Унифицированный параллелизм последовательностей (USP) — сочетание Ulysses-SP и Ring-Attention для ускорения трансформеров;
CFG- и тензорный параллелизм (TP) — для оптимальной производительности на разных уровнях модели;
Интеграция с FastVideo — для поддержки полного цикла: от дистилляции до вывода.

В сравнении с традиционным ИИ-движком Hugging Face, SGLang Diffusion значительно превосходит его по скорости генерации видео и изображений. Команда отмечает, что это только начало — дальнейшая оптимизация проекта продолжается. Проекты SGLang Diffusion и FastVideo планируют развивать комплексную экосистему диффузионных технологий. Команды проработали Roadmap, в рамках которого добавят:

Расширение поддержки моделей;
Новые ядра и методы квантования;
Интеграция Flash Attention 4 для ускорения на архитектуре Blackwell;
Поддержка дозирования, облачной загрузки и улучшенного кэширования.

Открытые проекты Fast Video и SGLang Diffusion объявляют о сотрудничестве. Источник: LMSYS.

Выводы

Выход SGLang Diffusion знаменует важный шаг в эволюции генеративных систем. Эта разработка объединяет лучшие достижения в области языковых и диффузионных моделей, делая процесс создания визуального контента быстрее, гибче и доступнее. SGLang Diffusion не просто инструмент — это фундамент для будущих поколений мультимодальных ИИ, способных объединять текст, изображение и видео в едином высокопроизводительном пространстве.

Автор:

Serverflow