Кластеры из ИИ-ПК Ryzen AI Max+ 395: AMD выпустила официальное руководство по развертыванию

27.02.2026

~ 2 мин

327

Простой

Новости

Введение

Компания AMD опубликовала в своем официальном блоге подробное техническое руководство, показывающее, как собрать локальный кластер из нескольких ИИ-ПК на базе центральных процессоров Ryzen AI Max+ 395 и использовать его для запуска крупной языковой модели Kimi K2.5 класса триллион параметров. Такой подход дает возможность проводить распределенный инференс без необходимости в облачных сервисах и дорогостоящем серверном оборудовании.

Подробнее о кластерах из 4-х ИИ-ПК Ryzen AI Max+ 395

В качестве демонстрации использовалась сеть из четырех настольных систем с процессорами AMD Ryzen AI Max+ 395 (скорее всего, системы Minisforum) и по 128 ГБ оперативной памяти на узел. Объединялись компактные ИИ-ПК с помощью 5 Гбит/с Ethernet. Работа велась в операционной системе Ubuntu 24.04.3 LTS, в качестве движка инференса был выбран Llama.cpp RPC, а запускали ИИ-модель Kimi-K2.5 (UD_Q2_K_XL) (375 ГБ). Руководство описывает по шагам весь процесс — от подготовки оборудования и настройки драйверов до запуска распределенного инференса, при котором модель работает так, как если бы она находилась на одном логическом ускорителе.

Схема сетевой топологии кластера на базе AMD Ryzen AI Max+ 395

Упрощенная схема сетевой топологии кластера из 4-х ИИ-ПК на базе AMD Ryzen AI Max+ 395. Источник: AMD.

В материале объясняется, как на каждом узле увеличить доступный объем адресуемой видеопамяти путем настройки параметров ядра Linux, а также перечисляются две основные стратегии подготовки программной среды: использование готовых бинарных сборок с поддержкой ROCm (через Lemonade SDK) или компиляция llama.cpp с нуля с включением поддержки ROCm и RPC-протокола. Это позволяет каждому узлу в кластере участвовать в распределенной нагрузке при инференсе.

Одна из ключевых частей руководства посвящена организации RPC-связи между узлами. С помощью механизма удаленных вызовов процедур (RPC) основной контролирующий узел распределяет части модели и вычислительные задачи по всем остальным машинам, так что в сумме они работают как единый мощный ИИ-ускоритель.

Помимо этого, в статье AMD описаны варианты запуска самого инференса как через консольный интерфейс (llama-cli), так и через серверный режим с веб-интерфейсом и OpenAI-совместимым API (llama-server). Последний делает такой локальный кластер удобным для интеграции с внешними приложениями и UI-фронтэндами без изменения кода клиентов. AMD также демонстрирует, что оптимизации, такие как Flash Attention через API rocWMMA, могут существенно ускорять обработку длинных контекстов модели, снижая задержки и повышая пропускную способность генерации — с 3,46 токенов в секунду до 8.30 токенов в секунду при декодировании 128 токенов вс длиной контекста в 8192 токенов.

Повышение производительности кластера при использовании Flash Attention

Повышение производительности кластера на базе 4-х ИИ-ПК на базе AMD Ryzen AI Max+ 395 при использовании Flash Attention через API rocWMMA. Источник: AMD.

Выводы

AMD подчеркивает, что такие локальные ИИ-кластеры перестали быть уделом только облака или серверных GPU: современные настольные ИИ-ПК способны обеспечивать производительность, достаточную для запуска самых больших моделей, при этом сохраняя контроль над данными, соблюдая требования приватности и снижая эксплуатационные затраты по сравнению с облачными сервисами. В целом, это наглядный пример того, как на волне успеха Nvidia DGX Spark, конкурент в лице AMD также популяризирует собственные компактные ИИ-ПК, продвигая возможность инференса крупных языковых моделей и сборки кластера сразу из четырех систем.

Автор:

Serverflow