Docker Model Runner интегрирует vLLM: новые возможности для эффективного инференса

21.11.2025

~ 2 мин

551

Простой

Новости

Введение

Команда Docker объявила о важном обновлении: Docker Model Runner теперь поддерживает инференс ИИ-моделей через движок vLLM в формате хранения весов safetensors. Благодаря этому ИИ-модели можно запускать с использованием привычных инструментов Docker, а также интеграция расширяет возможности для разработчиков. Интеграция vLLM стала логичным продолжением стратегии Docker по упрощению работы с большими языковыми моделями и обеспечению возможности миграции рабочих процессов.

Подробнее о vLLM в Docker Model Runner

Изначально Docker Model Runner был создан для того, чтобы разработчики могли легко запускать и тестировать LLM, используя контейнер с единым рабочим процессом. Поддержка нескольких механизмов вывода закладывалась с самого начала — первым из них стал llama.cpp, а теперь экосистема расширена интеграцией vLLM. В Docker Model Runner для запуска нейросетей через vLLM не требует никаких ручных настроек — инструмент сам определяет подходящий механизм вывода и направляет запросы либо в llama.cpp, либо в vLLM, в зависимости от формата загруженной модели. Такой подход устраняет необходимость выбора между удобством и производительностью: разработчик может прототипировать ИИ-приложения локально на llama.cpp и затем масштабировать рабочие нагрузки, используя vLLM, при этом сохраняя единый процесс развертывания и CI/CD.

Новое обновление также обозначило различия между двумя форматами моделей. GGUF, созданный специально для llama.cpp, подходит для разработки систем и работы со слабым железом благодаря инструментам для глубокой квантизации. Формат Safetensors же ориентирован на vLLM и обеспечивает максимальную пропускную способность для производственных ИИ-моделей. Docker Model Runner автоматически использует соответствующий движок, поэтому разработчику достаточно просто загрузить нужную модель как OCI-образ. На Docker Hub уже появились первые модели, совместимые с vLLM: smollm2, qwen3, gemma3 и gpt-oss — все в формате safetensors. На данном этапе поддержка оптимизирована для архитектуры x86_64 с GPU Nvidia.

Будущее интеграции vLLM и Docker Model Runner связано с расширением совместимости. Команда Docker работает над поддержкой vLLM в средах Windows через WSL2 и Docker Desktop, что позволит разработчикам работать с требовательными моделями на удобных инструментах вне экосистемы Linux. Параллельно ведется оптимизация взаимодействия с системами Nvidia DGX, а также работа над уменьшением времени запуска vLLM, чтобы ускорить генерацию первого токена и обеспечить комфорт при разработке ИИ-приложений.

Выводы

Интеграция vLLM в Docker Model Runner делает этот инструмент одним из наиболее гибких решений для работы LLM. Теперь разработчики могут сочетать удобство контейнеризации с высокой производительностью вывода через vLLM, используя единые команды и единый рабочий процесс на всех этапах разработки — от локального тестирования до развертывания в крупных кластерах. Новое обновление укрепляет позицию Docker как ключевой платформы для разработки ИИ-приложений и делает миграцию среды развертывания ИИ-моделей доступной для широкого круга пользователей.

Автор:

Serverflow