Бэкенды для инференса LLM: PyTorch, TensorFlow, ONNX и другие

25.09.2025

~ 15 мин

2291

Средний

Статьи

Введение

Во время работы с локальными ИИ-моделями через Ollama, llama.cpp или LM Studio, мало кто задумывается, что происходит под капотом движков инференса в этот момент. Сама по себе ИИ-модель — это просто файл с весами, огромный массив чисел, в которых хранятся все данные конкретной LLM. Само собой, взаимодействовать с этими числами напрямую невозможно, а превращением этих чисел в осмысленный код занимается специальный, низкоуровневый вычислительный механизм — бэкенд. Именно он является тем фундаментом, который оптимизирует миллиарды математических операций под конкретное железо: будь то видеокарты NVIDIA, процессоры AMD или обычные CPU. А от того, какой именно бэкенд используется при инференсе, зависит конечная производительность выбранной LLM. В этой статье мы расскажем вам о лучших бэкендах для инференса искусственного интеллекта, чем они отличаются и какой бэкенд стоит использовать именно вам.

PyTorch — лидер среди бэкендов

Логотип бэкенда PyTocrh. Источник: PyTocrh.

На сегодняшний день PyTorch прочно удерживает звание самого популярного бэкенда в сфере разработки и инференса больших языковых моделей. Его популярность среди энтузиастов и инженеров обусловлена его высочайшей гибкостью, динамическим вычислительным графом и исключительно тесной интеграцией с программной экосистемой Python. Подавляющее большинство современных открытых LLM, таких как семейства LLaMA* или Mistral, изначально выпускаются в формате бэкенда PyTorch, что делает его отправной точкой для любого локального развертывания.

Мощь этого фреймворка заключается в его универсальности и широкой поддержке аппаратного обеспечения. Для инференса на GPU NVIDIA он использует экосистему CUDA, которая также является признанным стандартом в области разработки LLM. Для видеокарт AMD существует стабильная поддержка программного стека ROCm, позволяющая запускать ИИ-модели почти с той же эффективностью, что и на CUDA. Наконец, PyTorch великолепно оптимизирован и для инференса непосредственно на центральном процессоре, используя библиотеки вроде Intel MKL или OpenBLAS для векторных вычислений. Помимо выполнения низкоуровневых операций, PyTorch предлагает широкие возможности для работы с высокоуровневым API (torch.nn.Module) для простого и интуитивного управления моделью, загрузки весов и самого инференса.

Можно с уверенностью сказать, что выбор PyTorch в качестве бэкенда — это самый удобный, безопасный и прямой путь для локального запуска LLM. Огромное сообщество, обилие готовых решений и гайдов, а также тот факт, что именно под него создаются все главные ИИ-новинки, подтверждают его лидерство на рынке бэкендов для инференса.

TensorFlow и Keras — классика индустрии

Логотипы бэкендов TensorFlow и Keras. Источник: Keras.

Если PyTorch — это самое современное решение, ставшее абсолютным лидером, то TensorFlow — это проверенная временем классика и корпоративный стандарт. Созданный и поддерживаемый компанией Google, этот фреймворк долгое время доминировал в индустрии машинного обучения, особенно на этапе ее активной популяризации. Хотя в сфере академических исследований и стартапов он и уступил пальму первенства PyTorch, его позиции в enterprise-сегменте и крупных коммерческих системах остаются чрезвычайно сильными.

Главное преимущество TensorFlow — это его зрелость, отлаженность и мощный набор инструментов для корпоративного развертывания (TensorFlow Serving, TensorFlow Lite). Многие крупные компании строили свои ИИ-инфраструктуры для обучения LLM именно на этом фреймворке, поэтому миграция на другую технологию для них часто нецелесообразна и даже избыточна. Кроме того, TensorFlow неразрывно связан с высокоуровневой библиотекой Keras, которая использует API для быстрой сборки и обучения ИИ-моделей, что значительно снижает порог входа в работу с TensorFlow для новых разработчиков LLM.

В области инференса LLM TensorFlow продолжает активно использоваться, особенно в рамках экосистемы Google (например, в сервисах Google Cloud). Многие ИИ-модели, особенно ранние версии Gemma, до сих пор доступны в формате TensorFlow, а запросы типа “tensorflow inference” демонстрируют, что интерес к его использованию в продакшене сохраняется и даже растет. Таким образом, TensorFlow остается надежным и мощным бэкендом для компаний, которые уже инвестировали свое время и бюджет в его экосистему.

ONNX и ONNX Runtime — универсальный формат

Логотип бэкенда ONNX. Источник: ONNX.

В идеальном мире любая ИИ-модель, обученная в любом фреймворке, могла бы работать на любом железе. К сожалению, мы живем не утопии, однако некоторые разработчики стараются приблизить нас к демократизации инференса ИИ, доступного всем и каждому — эти разработчики создали открытый стандарт ONNX (Open Neural Network Exchange). ONNX представляет собой компилятор кода ИИ или даже промежуточный формат весов. Модель, обученная в PyTorch или TensorFlow, может быть экспортирована в файл .onnx, который затем можно запустить с помощью высокооптимизированного бэкенда ONNX Runtime.

Этот подход решает несколько критически важных проблем:

Во-первых, он отделяет этап разработки модели от этапа ее развертывания. ИИ-инженер может спокойно работать в привычном PyTorch, а энтузиаст — запускать модель в виде готового ONNX-файла на оптимальном для железе, будь то сервер, ПК или ноутбук.
Во-вторых, ONNX Runtime предоставляет набор инструментов для дополнительной оптимизации модели (графовые оптимизации, квантизация) прямо перед инференсом, что может значительно повысить производительность локальной нейросети.

Широкая поддержка оборудования (CPU, GPU от NVIDIA и AMD через CUDA и ROCm, GPU Intel через OpenVINO) делает ONNX Runtime крайне полезным и эффективным решением для кросс-платформенных проектов. Запросы “onnx export” или “onnx pytorch” показывают востребованность этого формата, а его использование в таких задачах, как запуск YOLO или Stable Diffusion, подтверждает его практическую ценность. ONNX — это мост к универсальности и удобной компиляции передовых моделей искусственного интеллекта.

ROCm и cuDNN — поддержка от AMD и NVIDIA

Логотип программного стека ROCm. Источник: AMD.

Производительность современных LLM близилась бы к нулю без использования возможностей аппаратного ускорения графических ускорителей. На этом рынке доминируют два игрока ключевых игрока, и у каждого из них есть свой программный стек технологий для разработки/инференса ИИ: речь идет об Nvidia с экосистемой CUDA и об AMD со стеком ROCm. Но мало кто знает, что одним из важнейших компонентов CUDA является бэкенд cuDNN (CUDA Deep Neural Network library). Фреймворки вроде PyTorch и TensorFlow широко используют cuDNN для максимального ускорения вычислений на GPU NVIDIA. CuDNN — это низкоуровневая библиотека, которая предоставляет из себя набор высокоэффективных инструментов для выполнения ключевых операций, используемых в глубоком обучении LLM:

Оптимизированные реализации стандартных операций: высокопроизводительные реализации операций, включая свертку, пулинг, нормализацию, функции активации, механизм внимания и матричное умножение.
Поддержка Fusion: позволяет объединять несколько операций в один вызов для уменьшения затрат памяти и повышения производительности.
Expressive Graph API: API для описания вычислений в виде графа операций над тензорами. Включает прямой C API, open-source C++ Frontend API и Python bindings для удобства использования.
Эвристики и автотюнинг: использует эвристики для автоматического выбора наиболее эффективной реализации операции.
Инструменты для установки и управления: предоставляет пакеты для установки через различные менеджеры (conda, docker, pip).
Оптимизации для специфичных архитектур: высокооптимизированные реализации, использующие тензорные ядра на современных GPU NVIDIA.

В ответ на монополию CUDA компания AMD разработала открытую платформу ROCm (Radeon Open Compute platform). Ее цель — предоставить аналогичный по функциональности и производительности стек для видеокарт AMD. Вот несколько функций, являющихся основой бэкенда ROCm:

HIP — инструмент для портирования кода CUDA. Позволяет запускать один и тот же код на GPU AMD и NVIDIA.
MIOpen — высокооптимизированная библиотека для глубокого обучения (полный аналог cuDNN от NVIDIA).
rocBLAS — библиотека линейной алгебры (BLAS) для GPU AMD.
rocFFT — библиотека для быстрого преобразования значений Фурье (FFT).
rocRAND — библиотека для генерации случайных чисел.
HIPCC — компилятор для кода HIP (аналог nvcc от NVIDIA).
ROCProfiler/rocprof — основной инструмент для профилирования производительности кода на GPU.
ROCr — низкоуровневая среда выполнения для управления GPU.

Несмотря на то, что изначально стек AMD не мог предложить конкурентоспособную эффективность, платформа активно развивалась и в данный момент ROCm широко поддерживается во всех основных ИИ-фреймворках (особенно в PyTorch), что дает пользователям альтернативный выбор железа для инференса LLM. Таким образом, выбор между cuDNN и ROCm часто сводится к выбору между видеокартами NVIDIA и AMD соответственно, и бэкенды должны быть корректно сконфигурированы для работы с выбранной платформой.

DirectML и OpenVINO — альтернативные решения

Логотип бэкенда OpenVINO. Источник: OpenVINO.

Помимо мейнстрим-решений, на рынке инференса существует ряд нишевых, но крайне важных бэкендов, решающих специфические задачи. DirectML — это API от Microsoft, входящий в состав системы DirectX и предназначенный для аппаратного ускорения машинного обучения на любом GPU, доступном в системе Windows. Его ключевое преимущество — универсальность: одна и та же модель может работать на GPU от NVIDIA, AMD или Intel без необходимости переустановки драйверов или программных библиотек. Это делает его идеальным решением для развертывания на пользовательских ПК и ноутбуках, что особенно актуально для таких задач, как запуск Stable Diffusion через популярные веб-интерфейсы, например, ComfyUI.

С другой стороны, пользователям доступен бэкенд OpenVINO, который представляет из себя комплексный набор инструментов от Intel, заточенный под оптимизацию и ускорение инференса на процессорах интегрированной графике и других вычислительных модулях компании, таких как VPU (модули векторной обработки, например, сериия Intel Neural Stick). OpenVINO нужен для того, чтобы пользователи могли выжимать максимум производительности из железа Intel. OpenVINO часто используется в компьютерном зрении, но он также отлично подходит и для инференса LLM на CPU, где бэкенд может показать лучшую производительность по сравнению с стандартными бэкендами PyTorch или ONNX Runtime. Однако у OpenVINO есть ключевой недостаток — непопулярность решений Intel на рынке искусственного интеллекта и более низкая производительность в сравнении с бэкендами Nvidia и AMD. Так или иначе, OpenVINO остается оптимальным решением для инфраструктур, базирующихся на оборудовании Intel.

Выводы

Как мы видим, мир бэкендов для инференса LLM очень разнообразен и имеет вполне выстроенную иерархичен. Такие движки высокого уровня, как llama.cpp или vLLM, которые обеспечивают удобный API и передовые техники оптимизации (вроде FlashAttention и KV-cache в vLLM или эффективное управление контекстом в llama.cpp), всегда работают поверх этих низкоуровневых вычислительных бэкендов. Именно последние являются тем самым фундаментом, который определяет, на каком железе и с какой эффективностью будет работать ваша ИИ-модель. PyTorch и TensorFlow остаются массовыми рабочими лошадками, предлагая полный цикл от разработки до запуска нейросетей, ONNX предоставляет столь необходимую универсальность и компиляцию между фреймворками и платформами, стек CUDA/cuDNN от NVIDIA и открытый ROCm от AMD отвечает за все вычисления на GPU, а такие решения, как DirectML и OpenVINO, закрывают нишевые, но важные сценарии использования LLM на периферийных устройствах и специфическом железе. И помните, что нет идеального бэкенда, который подойдет для любых задач — конечный выбор зависит от вашего аппаратного обеспечения, формата модели и платформы развертывания.

*LLAMA — проект Meta Platforms Inc.**, деятельность которой в России признана экстремистской и запрещена

**Деятельность Meta Platforms Inc. в России признана экстремистской и запрещена

Автор:

Serverflow