Команда vLLM выпустила версию движка 0.19.0, в которую вошло суммарно 448 коммитов от 197 участников. В этом релизе был сделан фокус на расширении поддержки большого количества самых актуальных ИИ-моделей, повышении пропускной способности инференса и оптимизации работы с памятью. Ключевые нововведения включают полную поддержку недавно выпущенных нейросетей семейства Gemma 4, интеграцию асинхронного планирования в паре со спекулятивным декодированием, доработки механизма Model Runner V2, добавление полноценных CUDA-графов для Vision Transformer, был введен общий механизм выгрузки KV-кэша на CPU, а также добавили большую оптимизацию под новые ИИ-ускорители NVIDIA B300 и GB300.
Подробнее о vLLM v0.19.0
Одним из главных событий стала поддержка архитектуры ИИ-моделей Google Gemma 4, включая многопоточность, мультимодальность, логические операции и вызовы инструментов — для работы требуется обновление библиотеки transformers до версии 5.5.0 и выше. Значительно улучшена эффективность инференса: асинхронное планирование теперь работает совместно со спекулятивным декодированием с нулевым перекрытием, что заметно повышает общую пропускную способность во время логического вывода. Model Runner V2 получил новые CUDA-графы для конвейерного параллелизма, сэмплер отклонения для спекулятивного декодирования с поддержкой логических задач, а также мультимодальные вложения для того же спекулятивного режима. Vision Transformer теперь полностью захватывается в CUDA-графы, снижая накладные расходы. Добавлен общий механизм выгрузки KV-кэша на процессор с возможностью подключаемой политики кэширования и обработкой вытеснения на уровне блоков. Оптимизация двухпакетного перекрытия (DBO) обобщена и работает не только с конкретными архитектурами, а с любыми моделями. Для новых чипов NVIDIA B300 и GB300 (SM 10.3) по умолчанию включена фьюжн allreduce с настроенным коммуникатором.
Кроме того, в vLLM v0.19.0 была значительно расширена поддержка новых ИИ-моделей: добавлены архитектуры Cohere ASR, Cohere Transcribe, ColQwen3.5, Granite 4.0 Speech, Qwen3-ForcedAligner и другие. Улучшена совместимость с HuggingFace Transformers v5, исправлено множество ошибок для популярных моделей вроде Qwen3-VL, Nemotron 3, GLM-4, AudioFlamingo. В области аппаратной оптимизации — улучшена поддержка ROCm 7.2.1, улучшения для Intel XPU, Google TPU, CPU (включая прирост производительности до 48,9% для pooling-моделей), а также новые возможности квантования (квантование в реальном времени MXFP8, NVFP4, AWQ Marlin для ROCm). В API добавлен эндпоинт /v1/chat/completions/batch для пакетных запросов, ограничение токенов размышления, поддержка множественных типов эмбеддингов. Улучшены парсеры инструментов для GigaChat, Kimi-K2.5, Gemma 4, исправлены парсеры для Mistral, DeepSeek, GLM-4.7, Hermes и OpenAI.
Выводы
vLLM v0.19.0 представляет собой скорее минорный апдейт, но это не отменяет его внушительного вклада в развитие популярного движка инфернеса. Улучшения в планировании, спекулятивном декодировании и управлении KV-кэшем позволяют достичь более высокой пропускной способности и эффективнее использовать память. А адаптация под новейшее оборудование NVIDIA, AMD, Intel и CPU делает vLLM более универсальным решением для широкого круга аппаратных платформ. Разработчики получают не только скорость, но и гибкость благодаря обновленному API и инструментам квантования, что упрощает развертывание сложных мультимодальных и многоязычных моделей в продакшене.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.