Релиз vLLM-Omni: инференс Omni-моделей без лишних хлопот

02.12.2025

~ 2 мин

354

Простой

Новости

Введение

Команда vLLM новый, передовой ИИ-движок vLLM-Omni для инференса мультимодальных и омни-модальных моделей нового поколения. Если базовая vLLM была оптимизирована под высокопроизводительный авторегрессионный текстовый вывод, то vLLM-Omni предоставляет единый стек для работы с текстом, изображениями, аудио и видео, а также поддерживает современные архитектуры, выходящие за пределы классического подхода ИИ-трансформеров.

Подробнее о vLLM-Omni

vLLM-Omni стала одной из первых решений с открытым исходным кодом, предоставляющих полноценную омни-модальную службу моделей. Платформа сохраняет ключевые преимущества vLLM — эффективное управление памятью, высокую пропускную способность, низкие задержки, и расширяет их в сторону работы с гетерогенными вычислительными конвейерами. vLLM-Omni — это не надстройка над vLLM, а полностью переосмысленная архитектура инференса искусственного интеллекта нового поколения.

Архитектура движка vLLM-Omni. Источник: vLLM.

Система построена вокруг полностью дезагрегированного конвейера, позволяющего выделять ресурсы сразу под несколько разных этапов вывода в реальном времени. Платформа объединяет несколько ключевых механизмов:

Модальные кодировщики: ViT, Whisper и другие модели, отвечающие за преобразование изображений, аудио и видео в векторы.
LLM-ядро: классический авторегрессионный вывод и генерация скрытых состояний на базе vLLM.
Модальные генераторы: высокопроизводительные DiT-и другие декодеры для генерации изображений, видео или аудио.

Пока LLM-ядро формирует скрытые состояния, модальный генератор может выполнять предварительные вычисления, а кодировщик — обрабатывать входные модальности. Это увеличивает пропускную способность и снижает простой оборудования.

Пайплайн инференса vLLM-Omni. Источник: vLLM.

Главным преимуществом vLLM-Omni остается простота: пользователи vLLM могут начать работу без изучения новых API — поддержка моделей Hugging Face и совместимость с сервером OpenAI сохраняется. Архитектура OmniStage предоставляет прозрачный способ интеграции современных омни-модальных моделей, включая Qwen-Omni, Qwen-Image и другие решения нового поколения.

В сравнительных тестах vLLM-Omni демонстрирует заметное ускорение мультимодального вывода по сравнению с традиционными фреймворками, включая Hugging Face Transformers.

Производительность инференса Qwen2.5-omni и Qwen3-omni в vLLM-Omni

Производительность вывода Qwen2.5-omni и Qwen3-omni через ИИ-движок vLLM-Omni. Источник: vLLM.

Команда vLLM уже определила направления дальнейшего развития платформы. В ближайшее время планируется расширение поддержки открытых омни-модальных моделей и диффузионных трансформеров, а также улучшение адаптивной системы выполнения, чтобы обеспечить стабильную работу как в исследовательских, так и в коммерческих сценариях. Одним из ключевых этапов станет более глубокая интеграция омни-функций в основную экосистему vLLM, превращающая мультимодальность в базовый элемент инфраструктуры. Дополнительно планируется ускорение диффузионных моделей через параллельный вывод (DP/TP/SP/USP), оптимизацию кэширования (TeaCache/DBCache), квантование и внедрение разреженного внимания. Долгосрочные планы включают полную дезагрегацию всех стадий — от кодировщиков до генеративных голов — что позволит ещё сильнее увеличить пропускную способность и снизить задержки. Также продолжается работа над поддержкой различных аппаратных бэкендов, чтобы vLLM-Omni могла эффективно запускаться на широком спектре устройств и кластеров.

Выводы

vLLM-Omni — это шаг к унифицированной, доступной и масштабируемой платформе для омни-модальных моделей. Благодаря дезагрегированной архитектуре, параллельному выполнению инференса и глубокой интеграции с vLLM, новое решение формирует основу инфраструктуры для мультимодальных моделей следующего поколения. Быстрое развитие платформы и акцент на производительность делают vLLM-Omni важным инструментом для разработчиков, исследователей и компаний, интегрирующих ИИ в свои продукты.

Автор:

Serverflow