vLLM v0.13.0: мощное обновление топового ИИ-движка

23.12.2025

~ 2 мин

391

Простой

Новости

Введение

Передовой открытый ИИ-движок vLLM обновился до версии 0.13.0 и этот релиз стал одним из самых масштабных обновлений проекта за все время его существования. В разработке приняли участие более 200 контрибьюторов, а общее число коммитов превысило 400. Обновление не только расширяет функциональность и поддержку моделей, но и вносит ряд критически важных изменений, которые требуют внимательного подхода при миграции с предыдущих версий.

Подробнее о возможностях и изменениях

В v0.13.0 существенно переработана модельная экосистема. Добавлена поддержка новых архитектур и моделей, включая BAGEL, AudioFlamingo3 и JAIS 2, а также реализована работа с латентной MoE архитектурой. Улучшены парсеры инструментов для актуальных reasoning-моделей, расширены возможности работы с мультимодальными данными, а также устранены ошибки и неточности в логике рассуждений и семплинга у отдельных семейств моделей. Параллельно развивались задачи классификации токенов, мультимодальные проекторы и сценарии спекулятивного декодирования, что делает платформу более универсальной для исследовательских задач и продакшн-нагрузок.

Ядро движка получило заметные улучшения. Появилась более гибкая условная компиляция, ускорено кэширование префиксов, расширена поддержка различных вариантов attention, включая PrefixLM и Triton-реализации, а также улучшена инвариантность к пакетной обработке. Существенный прогресс достигнут в пуллинге, Model Runner V2 и механизмах спекулятивного декодирования, где особый акцент сделан на снижении синхронизаций между CPU и GPU. Отдельно стоит отметить значительный прирост производительности модели OpenAI Whisper, который в новой версии стал заметно быстрее предыдущих реализаций.

Аппаратная поддержка также была расширена. Добавлена совместимость с NVIDIA Blackwell Ultra, улучшены оптимизации под инференс DeepSeek, обновлены CPU и ROCm-пути, а также реализована поддержка новых форматов квантования и сжатия тензоров для различных ускорителей, включая Intel XPU. Параллельно развивалась инфраструктура сборки, контейнеризации и поддержки альтернативных NPU-платформ.

В области крупномасштабного инференса и распределенных сценариев vLLM v0.13.0 усиливает работу с KV-кэшем и механизмами восстановления после сбоев, улучшает многоузловые режимы и гибридное распределение нагрузки. Существенно продвинулись и возможности квантования, включая интеграцию новых схем FP8, W4A8 и улучшенную интеграцию MoE с LoRA и GGUF. На уровне API и фронтенда обновление приносит более зрелую API-экосистему, расширенные MCP-инструменты, улучшения в конфигурации, профилировании, метриках и пользовательском опыте, включая более информативные ошибки и проверки конфигураций.

Наконец, релиз включает важные изменения в области безопасности и зависимостей, а также удаление большого числа устаревших флагов, конфигураций и резервных механизмов. В частности, логика настройки attention окончательно переведена с переменных окружения на логику командной строки, переименованы флаги PassConfig и удалены старые параметры, которые больше не соответствуют текущей архитектуре проекта.

Выводы

vLLM v0.13.0 — это не просто очередное обновление, а значительный шаг вперед в развитии высокопроизводительного LLM-инференса через открытый движок. Релиз объединяет рост производительности, расширение аппаратной и модельной поддержки, улучшение API и очистку проблемных или устаревших механизмов. В итоге релиз vLLM v0.13.0 предлагает более стабильную, масштабируемую и современную платформу для работы с большими языковыми и мультимодальными моделями.

Автор:

Serverflow