Передовой открытый ИИ-движок vLLM обновился до версии 0.13.0 и этот релиз стал одним из самых масштабных обновлений проекта за все время его существования. В разработке приняли участие более 200 контрибьюторов, а общее число коммитов превысило 400. Обновление не только расширяет функциональность и поддержку моделей, но и вносит ряд критически важных изменений, которые требуют внимательного подхода при миграции с предыдущих версий.
Подробнее о возможностях и изменениях
В v0.13.0 существенно переработана модельная экосистема. Добавлена поддержка новых архитектур и моделей, включая BAGEL, AudioFlamingo3 и JAIS 2, а также реализована работа с латентной MoE архитектурой. Улучшены парсеры инструментов для актуальных reasoning-моделей, расширены возможности работы с мультимодальными данными, а также устранены ошибки и неточности в логике рассуждений и семплинга у отдельных семейств моделей. Параллельно развивались задачи классификации токенов, мультимодальные проекторы и сценарии спекулятивного декодирования, что делает платформу более универсальной для исследовательских задач и продакшн-нагрузок.
Ядро движка получило заметные улучшения. Появилась более гибкая условная компиляция, ускорено кэширование префиксов, расширена поддержка различных вариантов attention, включая PrefixLM и Triton-реализации, а также улучшена инвариантность к пакетной обработке. Существенный прогресс достигнут в пуллинге, Model Runner V2 и механизмах спекулятивного декодирования, где особый акцент сделан на снижении синхронизаций между CPU и GPU. Отдельно стоит отметить значительный прирост производительности модели OpenAI Whisper, который в новой версии стал заметно быстрее предыдущих реализаций.
Аппаратная поддержка также была расширена. Добавлена совместимость с NVIDIA Blackwell Ultra, улучшены оптимизации под инференс DeepSeek, обновлены CPU и ROCm-пути, а также реализована поддержка новых форматов квантования и сжатия тензоров для различных ускорителей, включая Intel XPU. Параллельно развивалась инфраструктура сборки, контейнеризации и поддержки альтернативных NPU-платформ.
В области крупномасштабного инференса и распределенных сценариев vLLM v0.13.0 усиливает работу с KV-кэшем и механизмами восстановления после сбоев, улучшает многоузловые режимы и гибридное распределение нагрузки. Существенно продвинулись и возможности квантования, включая интеграцию новых схем FP8, W4A8 и улучшенную интеграцию MoE с LoRA и GGUF. На уровне API и фронтенда обновление приносит более зрелую API-экосистему, расширенные MCP-инструменты, улучшения в конфигурации, профилировании, метриках и пользовательском опыте, включая более информативные ошибки и проверки конфигураций.
Наконец, релиз включает важные изменения в области безопасности и зависимостей, а также удаление большого числа устаревших флагов, конфигураций и резервных механизмов. В частности, логика настройки attention окончательно переведена с переменных окружения на логику командной строки, переименованы флаги PassConfig и удалены старые параметры, которые больше не соответствуют текущей архитектуре проекта.
Выводы
vLLM v0.13.0 — это не просто очередное обновление, а значительный шаг вперед в развитии высокопроизводительного LLM-инференса через открытый движок. Релиз объединяет рост производительности, расширение аппаратной и модельной поддержки, улучшение API и очистку проблемных или устаревших механизмов. В итоге релиз vLLM v0.13.0 предлагает более стабильную, масштабируемую и современную платформу для работы с большими языковыми и мультимодальными моделями.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.