Top.Mail.Ru
Релиз vLLM v0.10.2 — поддержка ARM, новые модели и ускорение инференса Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Релиз vLLM v0.10.2: новые функции, модели, архитектуры и многое другое

~ 2 мин
189
Простой
Новости
Релиз vLLM v0.10.2: новые функции, модели, архитектуры и многое другое

Введение

В официальном аккаунте на X представители команды vLLM объявили о выходе новой версии передового движка инференса — vLLM v0.10.2. Разработчики заявили о поддержке архитектуры AArch64 (ARM64), широкого списка новых ИИ-моделей, обновлении основных компонентов движка и других критически важных улучшениях. 

Подробнее о vLLM v0.10.2

Поддержка архитектуры AArch64 обеспечила совместимость движка vLLM с центральными процессорами Nvidia Grace, что открыло возможность развертывания локального инференса LLM через бэкенд vLLM на вычислительных стойках Nvidia GB200 NVL72. Пользователи уже могут запустить мультиплатформенный Docker-образ новой версии vLLM через официальный репозиторий проекта на GitHub. Благодаря этому улучшению, движок vLLM также получил совместимость с процессорами Huawei Kunpeng и другими китайскими чипами на архитектуре ARM. Разработчики ввели улучшения в ядре движка V1, где были улучшены вычислительные возможности платформы, добавлен KV-кэш с перекрестным вниманием для моделей кодировщик-декодер, оптимизированы графы CUDA в механизме FlashAttention MLA. Еще одним важным нововведением стало улучшение производительности генерации токенов 13,7 раз.

Среди других критически важных изменений стоит выделить обновление совместимости с PyTorch до версии 2.8.0, а также отказ от поддержки устаревшей версии ядра движка vLLM V0. Помимо этого, vLLM v0.10.2 вводит улучшенную поддержку API OpenAI, улучшения в Response API, оптимизацию внешнего интерфейса и улучшения конфигурации. Весомая доля изменений коснулась форматов квантования, а именно была интегрирована система послойной маршрутизации квантования квантование GGUF с пропуском слоев, возможность выполнения квантования через стек ROCm, оптимизация кэша загрузки MoE в MXFP4 и FP8. Расширение поддержки аппаратного и программного обеспечения принесло совместимость с процессорами Apple Silicon поколения M2 и выше, совместимость с Intel XPU, поддержку движка IBM Z V1, параллелизм конвейера ROCm с Ray. В области поддержки моделей была введена совместимость с множеством LLM, таких как Qwen3-Next , Qwen2Audio, NemotronH Nano VLM, Ernie4.5 V, EmbeddingGemma-300m и многих других нейросетей. 

Выводы

Релиз vLLM v0.10.2 привнес массу полезных изменений, приблизив индустрию открытых движков инференса к выходу масштабного обновления платформы до поколения vLLM v1. Стоит отметить, что разработчики добавили практически все функции, заявленные в Roadmap vLLM, что говорит о внушительной поддержке проекта со стороны как сообщества ИИ-энтузиастов, так и крупных компаний, таких как Nvidia, AMD и Intel.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)