vLLM v0.19.0: больше производительности, больше совместимости

04.04.2026

~ 2 мин

Простой

Новости

Введение

Команда vLLM выпустила версию движка 0.19.0, в которую вошло суммарно 448 коммитов от 197 участников. В этом релизе был сделан фокус на расширении поддержки большого количества самых актуальных ИИ-моделей, повышении пропускной способности инференса и оптимизации работы с памятью. Ключевые нововведения включают полную поддержку недавно выпущенных нейросетей семейства Gemma 4, интеграцию асинхронного планирования в паре со спекулятивным декодированием, доработки механизма Model Runner V2, добавление полноценных CUDA-графов для Vision Transformer, был введен общий механизм выгрузки KV-кэша на CPU, а также добавили большую оптимизацию под новые ИИ-ускорители NVIDIA B300 и GB300.

Подробнее о vLLM v0.19.0

Одним из главных событий стала поддержка архитектуры ИИ-моделей Google Gemma 4, включая многопоточность, мультимодальность, логические операции и вызовы инструментов — для работы требуется обновление библиотеки transformers до версии 5.5.0 и выше. Значительно улучшена эффективность инференса: асинхронное планирование теперь работает совместно со спекулятивным декодированием с нулевым перекрытием, что заметно повышает общую пропускную способность во время логического вывода. Model Runner V2 получил новые CUDA-графы для конвейерного параллелизма, сэмплер отклонения для спекулятивного декодирования с поддержкой логических задач, а также мультимодальные вложения для того же спекулятивного режима. Vision Transformer теперь полностью захватывается в CUDA-графы, снижая накладные расходы. Добавлен общий механизм выгрузки KV-кэша на процессор с возможностью подключаемой политики кэширования и обработкой вытеснения на уровне блоков. Оптимизация двухпакетного перекрытия (DBO) обобщена и работает не только с конкретными архитектурами, а с любыми моделями. Для новых чипов NVIDIA B300 и GB300 (SM 10.3) по умолчанию включена фьюжн allreduce с настроенным коммуникатором.

Кроме того, в vLLM v0.19.0 была значительно расширена поддержка новых ИИ-моделей: добавлены архитектуры Cohere ASR, Cohere Transcribe, ColQwen3.5, Granite 4.0 Speech, Qwen3-ForcedAligner и другие. Улучшена совместимость с HuggingFace Transformers v5, исправлено множество ошибок для популярных моделей вроде Qwen3-VL, Nemotron 3, GLM-4, AudioFlamingo. В области аппаратной оптимизации — улучшена поддержка ROCm 7.2.1, улучшения для Intel XPU, Google TPU, CPU (включая прирост производительности до 48,9% для pooling-моделей), а также новые возможности квантования (квантование в реальном времени MXFP8, NVFP4, AWQ Marlin для ROCm). В API добавлен эндпоинт /v1/chat/completions/batch для пакетных запросов, ограничение токенов размышления, поддержка множественных типов эмбеддингов. Улучшены парсеры инструментов для GigaChat, Kimi-K2.5, Gemma 4, исправлены парсеры для Mistral, DeepSeek, GLM-4.7, Hermes и OpenAI.

Выводы

vLLM v0.19.0 представляет собой скорее минорный апдейт, но это не отменяет его внушительного вклада в развитие популярного движка инфернеса. Улучшения в планировании, спекулятивном декодировании и управлении KV-кэшем позволяют достичь более высокой пропускной способности и эффективнее использовать память. А адаптация под новейшее оборудование NVIDIA, AMD, Intel и CPU делает vLLM более универсальным решением для широкого круга аппаратных платформ. Разработчики получают не только скорость, но и гибкость благодаря обновленному API и инструментам квантования, что упрощает развертывание сложных мультимодальных и многоязычных моделей в продакшене.

Автор:

Serverflow