Гайд по развертыванию ИИ на Intel Arc Pro B50 с llama.cpp

27.03.2026

~ 10 мин

Средний

Гайды

Введение

Компания Intel долгое время считалась аутсайдером в индустрии ИИ-ускорителей. В то время, как Nvidia укрепляла лидерство, выпуская самые производительные GPU в мире, а AMD медленно, но верно улучшала свою линейку ускорителей Instinct и оптимизировала функционал ROCm, Intel выбрала стратегию развития своих производственных мощностей и фокусировалась на выпуске CPU. Когда всем стало очевидно, что будущее за ИИ-технологиями, Intel включилась в гонку, выпустив свою линейку видеокарт Arc на базе графических ядер Xe, которые позиционировались как бюджетные профессиональные GPU с поддержкой локального развертывания искусственного интеллекта. Неплохие характеристики за относительно небольшой прайс привлекли внимание массы пользователей, интересующихся реальными ИИ-возможностями этих необычных графических решений, но у всех сразу возникли вопросы — как запустить ИИ на Intel Arc? Чтобы разобраться, насколько сложно превратить эту «необычную» видеокарту в рабочий инструмент для локального ИИ, где скрыты подводные камни драйверов и фреймворков, и какие сценарии использования откроются перед владельцем после правильной настройки, мы решили подготовить подробный гайд по развертыванию искусственного интеллекта на Intel Arc B50 — одной из самых современных профессиональных видеокарт Intel на архитектуре Battlemage (Xe2-HPG)

Подробнее о Intel Arc B50

Intel Arc Pro B50 — это самая младшая модель в новой профессиональной линейке Arc Pro B-series, представленная на конференции Computex 2025. Видеокарта позиционируется как доступное решение для рабочих станций начального уровня, ориентированное на профессиональные задачи: CAD, 3D-моделирование, видеомонтаж и, конечно же, локальный инференс ИИ.

Intel Arc Pro B50 выполнена в компактном низкопрофильном форм-факторе: длина составляет всего 168 мм, высота достигает 68,8 мм, карта занимает два слота расширения. Поскольку видеокарта ориентирована на интеграцию в рабочие станции, она имеет пассивное охлаждение с одним радиальным вентилятором, что позволяет выстраивать плотные конфигурации из нескольких GPU. При TDP всего 70 Вт карта не требует дополнительного питания, энергия подается только через слот PCIe 5.0 x8.

Сердце Arc Pro B50 — графический процессор BMG-G21 на базе 16 ядер с архитектурой Xe2-HPG (Battlemage), которая значительно расширила ИИ-возможности Intel Arc в сравнении с предыдущим поколением GPU компании. Самый главный “ИИ-оптимизатор” Xe2-HPG — переработанные матричные ядра XMX (Xe Matrix eXtensions) в количестве 128 штук, которые в этом поколении получили поддержку ускорения тензорных операций, что увеличило ИИ-производительность в 2,5 раза в сравнении с Xe-HPG.

Характеристики ИИ-ускорителя Intel Arc Pro B50. Источник: Intel.

Intel Arc Pro B50 обеспечивает:

170 TOPS в INT8;
85 TFLOPS в FP16 и BF16;
10,65 TFLOPS в FP32.
Поддержку ПО-стэка OpenVINO, oneAPI и PyTorch IPEX.

Карта оснащена 16 ГБ видеопамяти типа GDDR6 на 128-битной шине с пропускной способностью в 224 ГБ/с. Объем VRAM, прямо скажем, невелик, особенно на фоне других профессиональных решений Nvidia и AMD, но карта позиционируется именно как решение начального уровня, а в сравнении с ее прямым конкурентом NVIDIA RTX A1000 на архитектуре Ampere с 8 ГБ GDDR6, решение Intel выгодно выделяется за счет в два раза большего объема памяти и увеличенной скорости (192 ГБ/с против 224 ГБ/с). При этом цена на Arc Pro B50 ниже ($299-$349), чем на RTX A1000 ($400-$500), что также подкупает многию ИИ-энтузиастов. Конечно, логично было бы сравнивать Arc Pro B50 не с видеозатычкой, а с более мощным решением, вроде NVIDIA RTX A2000, но Intel решила пойти по простому пути.

Сравнение Intel Arc Pro B50 и NVIDIA RTX A1000. Источник: Intel.

Развертывание ИИ на Intel Arc Pro B50

Теперь, когда мы лучше узнали об особенностях и характеристиках Arc Pro B50, пришло время разобрать каждый шаг для запуска вашей первой ИИ-модели на передовом GPU от Intel.

Подготовка системы и драйверов

Мы будем выполнять инференс на операционной системе Ubuntu 25.04, так как именно эта версия дистрибутива Linux обеспечивает максимальную стабильность и предлагает поддержку актуальных прошивок и пакетов драйверов от Intel.

Затем необходимо скачать драйверы LTS 2350.x для видеокарты Intel Arc Pro B50 (они относятся к дата-центровым GPU) с официального сайта Intel — потребуются версии не ниже 1.1-1.2.

Затем введите следующую команду для установки всех необходимых утилит:

sudo apt-get install -y gpg-agent wget

После этого введите команду для скачивания и установки GPG-ключа Intel:

wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \

sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg

Для обновления всех пакетов и установить зависимостей введите команду:

sudo apt-get update

После этого добавьте пользователя в группы video и render:

sudo usermod -aG render $USER

sudo usermod -aG video $USER

Затем перезагрузите систему, чтобы изменения вступили в силу. После перезагрузки рекомендуем проверить корректность установки драйверов и зависимостей с помощью команды:

sudo ./scripts/evaluation/platform_basic_evaluation.sh

Если система вывела результат PASSED, то все подготовительные меры выполнены корректно и можно переходить к следующему этапу.

Скачивание базового набора инструментов

Мы рамках нашего гайда мы будем использовать движок инференса llama.cpp, поскольку vLLM очень неохотно запускается на Arc Pro B50 (вернее, не запускается вовсе), а до теста инференса на открытом движке OpenVINO от Intel у нас не дошли руки.

Чтобы llama.cpp корректно работал на Intel Arc Pro B50, а не на CPU, необходимо подготовить набор инструментов Intel oneAPI, в который входит:

Компилятор/среда выполнения Intel oneAPI DPC++/C++ (SYCL);
Библиотека Intel oneAPI DPC++/C++ (oneDPL);
Библиотека глубоких нейронных сетей Intel oneAPI (oneDNN);
Библиотека математических ядер Intel oneAPI (oneMKL).

Все вышеперечисленные инструменты входят в состав набора Intel oneAPI Base Toolkit и пакета Intel Deep Learning Essentials, которые можно скачать на официальном сайте Intel по указанным инструкциям.

Затем введите команду для проверки доступности видеокарты:

sycl-ls

Если система вывела в консоль [level_zero:gpu], то все выполнено корректно, GPU задействован системой и готов к работе.

Сборка билда llama.cpp и запуск инференса

Теперь нужно подготовить движок llama.cpp для работы со стэком Intel Arc Pro B50. Для этого достаточно ввести одну команду, которая автоматически выполнит сборку билда:

./examples/sycl/build.sh

Поздравляем, движок готов! Но он пока не заряжен локальными ИИ-моделями для инференса. В рамках нашего гайда мы будет развертывать ИИ-модели:

mistral3 14B Q4_K - Small;
gpt-oss 20B MXFP4 MoE;
qwen35 9B Q8_0.

Скачивание моделей проще всего выполнять через huggingface-cli, для установки которого необходимо ввести команду:

pip install -U huggingface_hub

Поскольку инференс будет выполняться на llama.cpp, необходимо скачать модели в формате хранения весов GGUF. Выберите подходящую для вас модель и введите следующую команду для установки:

huggingface-cli download MaziyarPanahi/Mistral-3-7B-Instruct-v0.1-GGUF mistral-3-7b-instruct-v0.1.Q4_K_S.gguf --local-dir .

huggingface-cli download loneStriker/gpt-oss-20b-moe-GGUF gpt-oss-20b-moe-Q4_K_M.gguf --local-dir .

huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF qwen2.5-7b-instruct-q8_0.gguf --local-dir .

Готово! Теперь установленные модели можно запустить через интерфейс llama.cli. Для Этого необходимо выполнить одну из следующих команд в зависимости от выбранной модели:

./build/bin/llama-cli -m mistral3-14b.Q4_K_S.gguf -ngl 99 -c 4096 -i

./build/bin/llama-cli -m gpt-oss-20b-moe.gguf -ngl 99 -c 4096 -i

./build/bin/llama-cli -m qwen35-9b.Q8_0.gguf -ngl 99 -c 4096 -i

Стоит отметить, что маркер -ngl обозначает количество слоев нейросети, которые будут задействованы в ифнеренсе, а условное “4096” — это размер контекстного окна, которое будет использовать нейросеть. В зависимости от выбора этих значений, будет варьироваться объем потребляемой VRAM.

Готово, теперь вы можете свободно работать со своей локальной ИИ-моделью, запущенной на Intel Arc Pro B50!

Тестирование ИИ-производительности Intel Arc Pro B50

Если вы хотите проверить производительность локальной ИИ-модели, введите команду для запуска встроенного бенчмарка:

llama-bench

Мы решили сравнить показатели производительности Intel Arc Pro B50 с видеокартой Nvidia Tesla T4, выпущенной в 2018 году, поскольку у них одинаковый:

Объем VRAM (16 ГБ);
Эергопотребление (70 Вт);
ИИ-производительность в INT8 (170 TOPS против 130 TOPS) и в FP32 (10,65 TFLOPS против 8,1 TFLOPS).
Мы получили следующие результаты:

Как вы можете видеть, в инференсе Mistral3 14B Q4_K - Small видеокарта Intel Arc Pro B50 показывает себя более чем уверенно и даже немного опережает старичка Nvidia Tesla T4, но в запуске GPT-OSS 20B MXFP4 MoE и Qwen3.5 9B Q8_0 производительность резко падает, особенно по скорости генерации токенов, что может свидетельствовать об отсутствии оптимизации драйверов под актуальные ИИ-модели.

Помимо запуска языковых моделей, мы также решили сравнить Intel Arc Pro B50 и Nvidia Tesla T4 в инференсе дифузионных нейросетей через ComfyUI. В качестве моделей выбрали FLUX.2-klein-9b и Z-Image Turbo.

В случае с FLUX.2-klein-9b видеокарта Intel Arc Pro B50 сгенерировала изображение за: 1 минуту 55 секунд, а Nvidia Tesla T4 справилась аж за 3 минуты 2 секунды — разница в 1,5 раза.
При генерации через Z-Image Turbo разница оказалась не столь велика — 28 секунд у Intel Arc Pro B50 и 30 секунд у Nvidia Tesla T4, что можно свести к простой погрешности.

Выводы

Intel Arc Pro B50 вполне успешно можно назвать крепким среднячком. В инференсе LLM она демонстрирует не самую лучшую ИИ-производительность, особенно при работе с более современными нейросетями, но это, скорее всего, исправят в ближайшем будущем с выходом более актуальных версий драйверов. В инфеенсе диффузионных моделей Intel Arc Pro B50 работает более уверенно и даже обходит Nvidia Tesla T4. С учетом более низкого ценника, более свежей архитектуры и развития совместимого программного обеспечения, профессиональная видеокарта Intel Arc Pro B50 выглядит более перспективно, по крайней мере, пока конкуренты не выпустили свои графические решения для начального сегмента рынка. Но на фоне более современных решений Nvidia, которые поддерживают режимы вычислений FP8 и FP4, Intel безоговорочно проигрывает. Если вы хотите приобрести видеокарту Intel Arc Pro B50, обращайтесь в компанию ServerFlow — мы не только организуем доставку этого передового GPU в РФ, но и поможем с развертыванием всего необходимого софта для выполнения ваших бизнес-задач.

Автор:

Serverflow