AMD Instinct поддерживает Qwen 3.5 с нулевого дня

18.02.2026

~ 2 мин

Простой

Новости

Введение

Компания AMD сообщила о поддержке моделей Qwen 3.5 от Alibaba на ускорителях линейки AMD Instinct MI300X, AMD Instinct MI325X и AMD Instinct MI355X. Поддержка реализована в тесном сотрудничестве с командой разработчиков Alibaba и доступна с нулевого дня благодаря оптимизациям в программном стеке ROCm, а также интеграции с SGLang и vLLM. Это позволяет разработчикам сразу развертывать топовую китайскую ИИ-модель без дополнительной низкоуровневой донастройки.

Подробнее о поддержке Qwen 3.5 на AMD Instinct

Ключевой акцент сделан на эффективной работе с длинным контекстом и сложными мультимодальными сценариями. ИИ-модель Qwen 3.5 поддерживает контекстные окна от 256 тысяч до 1 миллиона токенов, поддерживает полную мультимодальность за счет технологии DeepStack Vision Transformer и использует гибридную архитектуру внимания, сочетающую полное многоголовое внимание и линейные Gated Delta-сети. Такой подход устраняет квадратичную зависимость вычислительных затрат от длины последовательности и обеспечивает линейное масштабирование при росте контекста. При обработке последовательностей свыше 32 000 токенов достигается заметный прирост пропускной способности за счет снижения вычислительной нагрузки и более эффективного управления памятью. Это особенно важно для корпоративных сценариев — анализа длинных документов, обработки кодовых баз, агентных рабочих процессов и сложных логических цепочек.

С точки зрения оптимизаций, линейное внимание реализовано через Triton-ядра fused_recurrent_gated_delta_rule, которые поддерживаются vLLM и SGLang на ROCm. В архитектуре MoE путь Shared Expert использует оптимизированные hipBLASLt GEMM-ядра, а специализированные эксперты задействуют реализации AITER FusedMoE. Мультимодальные компоненты, включая mRoPE и Conv3d, работают через стандартные библиотеки MIOpen и PyTorch на GPU AMD.

Интеграция Qwen 3.5 с ускорителями AMD Instinct открывает компаниям возможность строить масштабируемые ИИ-платформы без жесткой привязки к одному поставщику ИИ-оборудования. Большой объем HBM-памяти в MI300X/MI325X/MI355X позволяет запускать крупные модели и длинные контексты на одном GPU или в пределах одного узла, уменьшая инфраструктурные затраты.

Передовые ИИ-ускорители AMD Instinct поддерживают топовую LLM Qwen 3.5. Источник: AMD.

Выводы

Поддержка Qwen 3.5 на графических процессорах AMD Instinct демонстрирует стратегическое стремление AMD усилить позиции в сегменте ИИ-инфраструктуры для инференса LLM и агентных систем. Комбинация гибридного внимания, MoE с Shared Expert, мультимодального стека и оптимизаций ROCm/SGLang/vLLM формирует готовую платформу для развертывания моделей с длинным контекстом и высокой вычислительной эффективностью в корпоративных и промышленных средах. В ассортименте ServerFlow доступны различные решения линеек AMD Instinct и AMD Radeon AI Pro, при покупке мы поможем вам развернуть весь программный стек для работы с передовой ИИ-моделью Qwen 3.5.

Автор:

Serverflow