В официальном аккаунте на X представители команды vLLM объявили о выходе новой версии передового движка инференса — vLLM v0.10.2. Разработчики заявили о поддержке архитектуры AArch64 (ARM64), широкого списка новых ИИ-моделей, обновлении основных компонентов движка и других критически важных улучшениях.
Подробнее о vLLM v0.10.2
Поддержка архитектуры AArch64 обеспечила совместимость движка vLLM с центральными процессорами Nvidia Grace, что открыло возможность развертывания локального инференса LLM через бэкенд vLLM на вычислительных стойках Nvidia GB200 NVL72. Пользователи уже могут запустить мультиплатформенный Docker-образ новой версии vLLM через официальный репозиторий проекта на GitHub. Благодаря этому улучшению, движок vLLM также получил совместимость с процессорами Huawei Kunpeng и другими китайскими чипами на архитектуре ARM. Разработчики ввели улучшения в ядре движка V1, где были улучшены вычислительные возможности платформы, добавлен KV-кэш с перекрестным вниманием для моделей кодировщик-декодер, оптимизированы графы CUDA в механизме FlashAttention MLA. Еще одним важным нововведением стало улучшение производительности генерации токенов 13,7 раз.
Среди других критически важных изменений стоит выделить обновление совместимости с PyTorch до версии 2.8.0, а также отказ от поддержки устаревшей версии ядра движка vLLM V0. Помимо этого, vLLM v0.10.2 вводит улучшенную поддержку API OpenAI, улучшения в Response API, оптимизацию внешнего интерфейса и улучшения конфигурации. Весомая доля изменений коснулась форматов квантования, а именно была интегрирована система послойной маршрутизации квантования квантование GGUF с пропуском слоев, возможность выполнения квантования через стек ROCm, оптимизация кэша загрузки MoE в MXFP4 и FP8. Расширение поддержки аппаратного и программного обеспечения принесло совместимость с процессорами Apple Silicon поколения M2 и выше, совместимость с Intel XPU, поддержку движка IBM Z V1, параллелизм конвейера ROCm с Ray. В области поддержки моделей была введена совместимость с множеством LLM, таких как Qwen3-Next , Qwen2Audio, NemotronH Nano VLM, Ernie4.5 V, EmbeddingGemma-300m и многих других нейросетей.
Выводы
Релиз vLLM v0.10.2 привнес массу полезных изменений, приблизив индустрию открытых движков инференса к выходу масштабного обновления платформы до поколения vLLM v1. Стоит отметить, что разработчики добавили практически все функции, заявленные в Roadmap vLLM, что говорит о внушительной поддержке проекта со стороны как сообщества ИИ-энтузиастов, так и крупных компаний, таких как Nvidia, AMD и Intel.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.