Top.Mail.Ru
vLLM вводит поддержку Intel Arc Pro B60 | Новости Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Из-за нестабильности цен RAM фактическая стоимость может отличаться. Цена подтверждается после оформления заказа, работаем над обновлением цен!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

vLLM вводит поддержку Intel Arc Pro B60

~ 2 мин
148
Простой
Новости
vLLM вводит поддержку Intel Arc Pro B60

Введение

Команда vLLM представила результаты совместной работы с Intel, направленной на оптимизацию работы больших языковых моделей на графических процессорах Intel Arc Pro серии B. Новое поколение профессиональных GPU Intel делает ИИ-вычисления доступными для широкой аудитории, обеспечивая высокую производительность, масштабируемость и отличное соотношение цены и эффективности.

Подробнее о поддержке Intel Arc Pro B60 в vLLM

Графические процессоры Intel Arc Pro серии B получили расширенные возможности для работы с крупными языковыми и мультимодальными моделями. Благодаря большому объему видеопамяти и поддержке многопроцессорного масштабирования эти GPU позволяют запускать даже самые современные нейросетевые модели локально без необходимости использовать дорогостоящее специализированное оборудование. В основе программного стека лежит оптимизированная библиотека vLLM, которая обеспечивает быстрый и экономичный вывод данных. Intel и разработчики vLLM тесно сотрудничали, чтобы реализовать ключевые функции — от передачи данных PCIe P2P и масштабирования на несколько GPU до поддержки параллелизма на уровне данных, тензоров и конвейеров. Arc Pro серии B поддерживает широкий спектр ИИ-моделей: от DeepSeek, GPT-OSS, Qwen и других LLM с архитектурой Mixture of Experts (MoE). Поддержка форматов FP8, FP16, BF16, MXFP4 и INT4, оптимизированное квантование и асинхронное планирование позволяют достичь высокой производительности при минимальных задержках и на 30% более эффективное использование памяти. Разработчики также устранили проблемы неэффективности в классической реализации GEMM для MoE, внедрив ядро с постоянным циклом и механизм динамической балансировки вычислительных групп. Такое решение устранило задержки и увеличило использование вычислительных ресурсов графического процессора до 80%.

Тесты инференса в vLLM с Intel Arc Pro B60
Тесты инференса языковых моделей в vLLM на Intel Arc Pro B60. Источник: vLLM.

При использовании восьми GPU Intel Arc Pro B60 дистиллированные модели DeepSeek размером от 8 до 70 млрд параметров демонстрируют задержку следующего токена менее 100 мс и стабильную скорость генерации даже при контексте до 40 000 токенов. Модель GPT-OSS-20B (MXFP4, 1 GPU, последовательность 1024/1024) видеокарта показала пропускную способность около 1210 токенов в секунду при задержке TTFT 7,6 с и времени TPOT 54 мс. При увеличении контекста до 5120 токенов скорость составила около 417 токенов/с. Старшая модель GPT-OSS-120B (MXFP4, 4 GPU) при тех же параметрах ввода обеспечила до 1495 токенов/с с задержкой менее 8,1 с и временем TPOT около 59 мс.

Тест инференса DeepSeek R1 на vLLM с Intel Arc Pro B60
Тест инференса DeepSeek R1 с большим контекстным окном на vLLM с Intel Arc Pro B60. Источник: vLLM.

Выводы

Интеграция Intel Arc Pro серии B в vLLM делают работу с искусственным интеллектом гораздо более доступнее благодаря отличному соотношению производительности и стоимости GPU, обеспечивая локальный запуск больших языковых моделей с высокой скоростью и минимальными затратами. Такой шаг также укрепляет позиции Intel на рынке ИИ в бюджетном сегменте, однако при работе с более требовательными ИИ-задачами они все еще сильно уступают решениям Nvidia и AMD.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-18:30 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-18:30 (по МСК)