Top.Mail.Ru
Docker Model Runner интегрирует vLLM: новые возможности для эффективного инференса | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Из-за нестабильности цен RAM фактическая стоимость может отличаться. Цена подтверждается после оформления заказа, работаем над обновлением цен!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

Docker Model Runner интегрирует vLLM: новые возможности для эффективного инференса

~ 2 мин
120
Простой
Новости
Docker Model Runner интегрирует vLLM: новые возможности для эффективного инференса

Введение

Команда Docker объявила о важном обновлении: Docker Model Runner теперь поддерживает инференс ИИ-моделей через движок vLLM в формате хранения весов safetensors. Благодаря этому ИИ-модели можно запускать с использованием привычных инструментов Docker, а также интеграция расширяет возможности для разработчиков. Интеграция vLLM стала логичным продолжением стратегии Docker по упрощению работы с большими языковыми моделями и обеспечению возможности миграции рабочих процессов.

Подробнее о vLLM в Docker Model Runner 

Изначально Docker Model Runner был создан для того, чтобы разработчики могли легко запускать и тестировать LLM, используя контейнер с единым рабочим процессом. Поддержка нескольких механизмов вывода закладывалась с самого начала — первым из них стал llama.cpp, а теперь экосистема расширена интеграцией vLLM. В Docker Model Runner для запуска нейросетей через vLLM не требует никаких ручных настроек — инструмент сам определяет подходящий механизм вывода и направляет запросы либо в llama.cpp, либо в vLLM, в зависимости от формата загруженной модели. Такой подход устраняет необходимость выбора между удобством и производительностью: разработчик может прототипировать ИИ-приложения локально на llama.cpp и затем масштабировать рабочие нагрузки, используя vLLM, при этом сохраняя единый процесс развертывания и CI/CD.

Новое обновление также обозначило различия между двумя форматами моделей. GGUF, созданный специально для llama.cpp, подходит для разработки систем и работы со слабым железом благодаря инструментам для глубокой квантизации. Формат Safetensors же ориентирован на vLLM и обеспечивает максимальную пропускную способность для производственных ИИ-моделей. Docker Model Runner автоматически использует соответствующий движок, поэтому разработчику достаточно просто загрузить нужную модель как OCI-образ. На Docker Hub уже появились первые модели, совместимые с vLLM: smollm2, qwen3, gemma3 и gpt-oss — все в формате safetensors. На данном этапе поддержка оптимизирована для архитектуры x86_64 с GPU Nvidia.

Будущее интеграции vLLM и Docker Model Runner связано с расширением совместимости. Команда Docker работает над поддержкой vLLM в средах Windows через WSL2 и Docker Desktop, что позволит разработчикам работать с требовательными моделями на удобных инструментах вне экосистемы Linux. Параллельно ведется оптимизация взаимодействия с системами Nvidia DGX, а также работа над уменьшением времени запуска vLLM, чтобы ускорить генерацию первого токена и обеспечить комфорт при разработке ИИ-приложений.

Выводы

Интеграция vLLM в Docker Model Runner делает этот инструмент одним из наиболее гибких решений для работы LLM. Теперь разработчики могут сочетать удобство контейнеризации с высокой производительностью вывода через vLLM, используя единые команды и единый рабочий процесс на всех этапах разработки — от локального тестирования до развертывания в крупных кластерах. Новое обновление укрепляет позицию Docker как ключевой платформы для разработки ИИ-приложений и делает миграцию среды развертывания ИИ-моделей доступной для широкого круга пользователей.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)