Релиз vLLM v0.10.2: новые функции, модели, архитектуры и многое другое

16.09.2025

~ 2 мин

189

Простой

Новости

Введение

В официальном аккаунте на X представители команды vLLM объявили о выходе новой версии передового движка инференса — vLLM v0.10.2. Разработчики заявили о поддержке архитектуры AArch64 (ARM64), широкого списка новых ИИ-моделей, обновлении основных компонентов движка и других критически важных улучшениях.

Подробнее о vLLM v0.10.2

Поддержка архитектуры AArch64 обеспечила совместимость движка vLLM с центральными процессорами Nvidia Grace, что открыло возможность развертывания локального инференса LLM через бэкенд vLLM на вычислительных стойках Nvidia GB200 NVL72. Пользователи уже могут запустить мультиплатформенный Docker-образ новой версии vLLM через официальный репозиторий проекта на GitHub. Благодаря этому улучшению, движок vLLM также получил совместимость с процессорами Huawei Kunpeng и другими китайскими чипами на архитектуре ARM. Разработчики ввели улучшения в ядре движка V1, где были улучшены вычислительные возможности платформы, добавлен KV-кэш с перекрестным вниманием для моделей кодировщик-декодер, оптимизированы графы CUDA в механизме FlashAttention MLA. Еще одним важным нововведением стало улучшение производительности генерации токенов 13,7 раз.

Среди других критически важных изменений стоит выделить обновление совместимости с PyTorch до версии 2.8.0, а также отказ от поддержки устаревшей версии ядра движка vLLM V0. Помимо этого, vLLM v0.10.2 вводит улучшенную поддержку API OpenAI, улучшения в Response API, оптимизацию внешнего интерфейса и улучшения конфигурации. Весомая доля изменений коснулась форматов квантования, а именно была интегрирована система послойной маршрутизации квантования квантование GGUF с пропуском слоев, возможность выполнения квантования через стек ROCm, оптимизация кэша загрузки MoE в MXFP4 и FP8. Расширение поддержки аппаратного и программного обеспечения принесло совместимость с процессорами Apple Silicon поколения M2 и выше, совместимость с Intel XPU, поддержку движка IBM Z V1, параллелизм конвейера ROCm с Ray. В области поддержки моделей была введена совместимость с множеством LLM, таких как Qwen3-Next , Qwen2Audio, NemotronH Nano VLM, Ernie4.5 V, EmbeddingGemma-300m и многих других нейросетей.

Выводы

Релиз vLLM v0.10.2 привнес массу полезных изменений, приблизив индустрию открытых движков инференса к выходу масштабного обновления платформы до поколения vLLM v1. Стоит отметить, что разработчики добавили практически все функции, заявленные в Roadmap vLLM, что говорит о внушительной поддержке проекта со стороны как сообщества ИИ-энтузиастов, так и крупных компаний, таких как Nvidia, AMD и Intel.

Автор:

Serverflow

Релиз vLLM v0.10.2: новые функции, модели, архитектуры и многое другое

Введение

Подробнее о vLLM v0.10.2

Выводы

Комментарии 0