Команда vLLM представила результаты совместной работы с Intel, направленной на оптимизацию работы больших языковых моделей на графических процессорах Intel Arc Pro серии B. Новое поколение профессиональных GPU Intel делает ИИ-вычисления доступными для широкой аудитории, обеспечивая высокую производительность, масштабируемость и отличное соотношение цены и эффективности.
Подробнее о поддержке Intel Arc Pro B60 в vLLM
Графические процессоры Intel Arc Pro серии B получили расширенные возможности для работы с крупными языковыми и мультимодальными моделями. Благодаря большому объему видеопамяти и поддержке многопроцессорного масштабирования эти GPU позволяют запускать даже самые современные нейросетевые модели локально без необходимости использовать дорогостоящее специализированное оборудование. В основе программного стека лежит оптимизированная библиотека vLLM, которая обеспечивает быстрый и экономичный вывод данных. Intel и разработчики vLLM тесно сотрудничали, чтобы реализовать ключевые функции — от передачи данных PCIe P2P и масштабирования на несколько GPU до поддержки параллелизма на уровне данных, тензоров и конвейеров. Arc Pro серии B поддерживает широкий спектр ИИ-моделей: от DeepSeek, GPT-OSS, Qwen и других LLM с архитектурой Mixture of Experts (MoE). Поддержка форматов FP8, FP16, BF16, MXFP4 и INT4, оптимизированное квантование и асинхронное планирование позволяют достичь высокой производительности при минимальных задержках и на 30% более эффективное использование памяти. Разработчики также устранили проблемы неэффективности в классической реализации GEMM для MoE, внедрив ядро с постоянным циклом и механизм динамической балансировки вычислительных групп. Такое решение устранило задержки и увеличило использование вычислительных ресурсов графического процессора до 80%.
Тесты инференса языковых моделей в vLLM на Intel Arc Pro B60. Источник: .
При использовании восьми GPU Intel Arc Pro B60 дистиллированные модели DeepSeek размером от 8 до 70 млрд параметров демонстрируют задержку следующего токена менее 100 мс и стабильную скорость генерации даже при контексте до 40 000 токенов. Модель GPT-OSS-20B (MXFP4, 1 GPU, последовательность 1024/1024) видеокарта показала пропускную способность около 1210 токенов в секунду при задержке TTFT 7,6 с и времени TPOT 54 мс. При увеличении контекста до 5120 токенов скорость составила около 417 токенов/с. Старшая модель GPT-OSS-120B (MXFP4, 4 GPU) при тех же параметрах ввода обеспечила до 1495 токенов/с с задержкой менее 8,1 с и временем TPOT около 59 мс.
Тест инференса DeepSeek R1 с большим контекстным окном на vLLM с Intel Arc Pro B60. Источник: .
Выводы
Интеграция Intel Arc Pro серии B в vLLM делают работу с искусственным интеллектом гораздо более доступнее благодаря отличному соотношению производительности и стоимости GPU, обеспечивая локальный запуск больших языковых моделей с высокой скоростью и минимальными затратами. Такой шаг также укрепляет позиции Intel на рынке ИИ в бюджетном сегменте, однако при работе с более требовательными ИИ-задачами они все еще сильно уступают решениям Nvidia и AMD.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.