SGLang vs vLLM: новый движок инференса LLM и почему он быстрее TensorRT-LLM

05.11.2025

~ 15 мин

3964

Средний

Статьи

Введение

Платформа vLLM стала настоящей классикой среди движков инференса искусственного интеллекта корпоративного уровня, и долгое время другие системы не могли составить ей достойную конкуренцию. Однако в 2025 году на рынке ИИ-движков начал активно набирать популярность новый игрок в лице платформы SGLang, которая превратилась из небольшого экспериментального проекта в полноценный эффективный аналог vLLM и TensorRT-LLM. Уже сегодня SGLang активно используется в крупных дата-центрах, поддерживает флагманские модели вроде Qwen 3, DeepSeek 3.2 и Llama 4, и предлагает то, что требует рынок: значительное ускорение инференса, снижение задержек и рост пропускной способности, при этом не устраняя ограничения других. SGLang — это не просто альтернатива, а логичное развитие идей, заложенных в vLLM, с открытым исходным кодом и бескомпромиссным фокусом на производительность в реальных рабочих нагрузках. В этой статье специалисты компании ServerFlow расскажут вам, что из себя представляет движок SGLang, из чего он состоит, чем он отличается от vLLM и как он меняет игру ИИ-инференса.

Что такое SGLang и чем он отличается от vLLM

SGLang (Structured Generation Language) — это open-source движок для инференса больших языковых и мультимодальных моделей, созданный исследователями из LMSYS (объединение университетов Стэнфорда, Беркли, Шанхая и Техаса). В отличие от vLLM, который был создан для максимальной пропускной способности в сценариях пакетной обработки, и TensorRT-LLM, который фокусируется на пиковой производительности на оборудовании NVIDIA, SGLang изначально был спроектирован для достижения чрезвычайно низкой задержки и эффективного масштабирования на множестве GPU, по сути, беря лучшее от своих конкурентов.

Немногие знают, но SGLang — это не только ИИ-движок, но и язык программирования, на котором, собственно, система локального вывода и написана. Именно благодаря этому языку движок обладает высочайшей скоростью выполнения запросов и легким выводом даже сложных ИИ-сценариев: цепочки вызовов LLM, взаимодействия с внешними инструментами и агентские рабочие процессы. SGLang не был бы настолько популярным, если бы он не поддерживал много популярных ИИ-моделей — на платформе можно найти практически все популярные ИИ-релизы с открытым исходным кодом, включая Qwen, DeepSeek, Llama* и Mistral. Мультимодальными моделями тоже не обидели, поэтому на SGLang есть LLaVA, Qwen-VL, Gemma, Kimi-VL и множество других нейросетей для обработки изображений и видео, поддерживающие развертывание через контейнеры и форматы развертывания, вроде GGUF и MLX. Также движок предлагает встроенную поддержку запуска квантованных моделей, чтобы вам не пришлось тратить время на поиск сжатой LLM. SGLang — это идеальный синтез скорости, масштабируемости и гибкости, который не найти на других ИИ-фреймворках.

GitHub-карточка открытого проекта SGLang. Источник: GitHub.

Архитектура и ключевые технологии SGLang

Помимо тесного переплетения с родным языком программирования, сердцем движка SGLang является RadixAttention — революционный механизм автоматического повторного использования KV-кэша между несколькими вызовами генерации. KV-кэш — это промежуточные тензоры, которые модель вычисляет для последовательности токенов. Их пересчет для одинаковых префиксов (например, системных промптов или истории чата) в голой LLM создает огромную вычислительную и нагрузку на память. RadixAttention сохраняет KV-кэш в radix-дереве (разновидность префиксного дерева) с политикой вытеснения Least Recently Used (LRU). Это позволяет движку находить и моментально переиспользовать уже вычисленные префиксы промптов, тем самым минимизируя нагрузку. На практике это означает, что в чатах с длинным контекстом SGLang не будет заново вычислять кэш для неизменной истории диалога, а возмет уже сохраненный результат. Это дает 5-6 кратное ускорение в сложных рабочих нагрузках, таких как агенты и модели с режимом рассуждения, по сравнению с системами, где кэш удаляется сразу запроса.

Помимо этого, SGLang интегрирует другие передовые оптимизации:

PagedAttention: технология, позаимствованная из vLLM, которая эффективно управляет памятью GPU, разбивая KV-кэш на страницы.
Continuous Batching: динамическое добавление новых запросов в текущий пакет без ожидания его завершения.
Сжатые конечные автоматы: для ускоренного декодирования структурированных выходных данных (например, JSON), что позволяет декодировать несколько токенов за один шаг вместо последовательного подхода "токен за токеном".

SGLang — это не набор разрозненных патчей, которые добавлены исключительно для понтов, а целостная архитектура, где оптимизации на уровне системы и языка программирования работают как единое целое.

Архитектура и ключевые компоненты ИИ-движка инференса SGLang. Источник: HuggingFace.

Поддерживаемые модели и аппаратная совместимость

SGLang позиционируется как универсальный бэкенд для инференса. Он уже поддерживает новейшие ИИ-модели, включая Llama* 4, Qwen-3-Next и Qwen-3-VL, а также DeepSeek 3.2 с его разреженным вниманием, агентские системы Kimi-K2 и получища других LLM и LMM для самых разных сценариев и нужд. Благодаря тесной интеграции с экосистемой Hugging Face, список поддерживаемых архитектур очень широк и постоянно обновляется, тем самым превосходя те же движки vLLM и Tensor-RT, которые добавляют только “избранные” ИИ-модели.

Гибкость SGLang выражается не только на словах, но и на деле, ведь движок поддерживает работу с различными типами аппаратного обеспечения, открывая свои двери для всех ИИ-энтузиастов.

NVIDIA GPU: полная оптимизация как для старых, так и новых GPU от Nvidia (GB200/B300/H100/H200/A100/Spark).
AMD GPU: официальная поддержка ускорителей MI300X, MI350 и MI355X.
CPU: инференс на центральных процессорах AMD и Intel.
NPU: платформу можно запускать даже на китайских NPU-ускорителях Huawei Ascend.
TPU: заявлена поддержка работы на специализированных чипах Google TPU.
XPU: без проблем запускайте LLM локально на потребительских видюхах Intel Arc серии B.

Даже если у вас стоит потребительская видеокарта, например, RTX 5060 Ti с 16 ГБ VRAM, это никак не помешает вам развертывать компактные ИИ-модели на этом передовом движке инференса, ведь SGLang поддерживает работу даже на таких пользовательском оборудовании. Именно эта универсальность в сочетании с производительностью побуждает многих ИИ-энтузиастов и компании мигрировать с vLLM на SGLang для своих потребительских и продакшен нагрузок, особенно тех, что связаны с интерактивными и сложными сценариями. Даже крупные компании, такие как xAI, Microsoft Azure и ByteDance перешли на этот движок инференса, чтобы сполна вкусить все преимущества системы, которая ориентирована на максимальный комфорт в выводе ИИ. Поскольку SGLang разрабатывался под Linux, лучше всего выполнять развертывание на дистрибутивах вроде Ubuntu или Debian, однако у сообщества все же есть неофициальные репозитории для Windows.

Компании, поддерживающие открытый проект SGLang. Источник: GitHub.

Квантизация и оптимизация памяти в SGLang

Для эффективного использования системных ресурсов SGLang предлагает широкую палитру методов квантования, позволяющих "сжать" модель без значительной потери точности. Среди поддерживаемых методов:

GPTQ & AWQ: пост-тренировочное квантование для точной настройки весов. GPTQ (Gradient Post-Training Quantization) использует аппроксимацию градиентов, чтобы минимизировать ошибку при переводе весов в низкую разрядность. AWQ (Activation-aware Weight Quantization) учитывает статистику активаций, чтобы сохранить точность при квантовании. Оба метода позволяют сжимать модель без повторного обучения и почти без потери качества.
BNB (Bits and Bytes): квантование в 4 и 8 бит (INT4/INT8) для загрузки огромных моделей на небольшой объем VRAM. Используется библиотека bitsandbytes, которая реализует эффективное хранение и вычисления с пониженными битами. Позволяет запускать LLM весом в десятки миллиардов параметров даже на видеокартах с 8-16 ГБ памяти.
FP8: формат с плавающей точкой, активно использующийся в новейших GPU Nvidia и AMD. Формат FP8 (Float8) балансирует между точностью FP16 и экономией памяти INT8, обеспечивая более быстрые вычисления при тренировке и инференсе. Поддерживается в архитектурах вроде Nvidia B200 и AMD MI350, что делает его новым стандартом для высокопроизводительного обучения ИИ.

Эти технологии критически важны для развертывания моделей с десятками и сотнями миллиардов параметров на серверных GPU и даже пользовательских, делая инференс не только быстрым и экономичным, но и доступным каждому. Конечно, пока что в движке нет интеграции с более продвинутыми форматами квантования вроде MXFP4, который поддерживается моделями GPT-OSS, но это лишь дело времени, тем более, вы всегда можете использовать чекпоинты для развертывания этих передовых нейросетей OpenAI с уже выполненным сжатием.

Производительность и бенчмарки

Удобство и гибкость это, конечно же, очень хорошо, но что там у движка SGLang с производительностью? Сейчас мы это выясним.

При тестировании на NVIDIA H100 SGLang демонстрирует более высокую производительность, чем vLLM: при инференсе одинаковых моделей (например, Llama* 3.1 8B Instruct) SGLang достигает порядка 25 000-28 000 токенов в секунду, тогда как vLLM показывает около 12 000-15 000 токенов в секунду в аналогичных условиях. Таким образом, преимущество SGLang по пропускной способности на H100 составляет примерно 1.8-2.3 раза, особенно заметное в сложных сценариях (долгие диалоги, агентные задачи, JSON-генерация), тогда как при коротких батчевых запросах vLLM остается немного быстрее по задержке первого токена.

Прирост пропускной способность при запуске ИИ-модели Llama* 3.2 3b с помощью SGLang. Источник: GitHub.

Выводы

SGLang по праву можно назвать ключевым open-source движком инференса 2025 года. Он материализует идею “больше скорости, меньше ресурсов”, предлагая рынку зрелое, высокопроизводительное решение для корпоративного и пользовательского инференса. Этот движок идеально подходит для компаний, которые столкнулись с ограничениями vLLM в интерактивных и структурированных сценариях, для ML-специалистов, ценящих гибкость и контроль, и для энтузиастов, желающих использовать самые современные модели на доступном оборудовании. Будущее инференса LLM — за движками, которые не просто предсказывают токены, а интеллектуально управляют вычислительными ресурсами и предлагают передовые технологические инновации для оптимизации ИИ-вычислений. SGLang — это именно тот движок, который делает высокопроизводительный инференс LLM по-настоящему доступной дисциплиной.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow