Компания AMD опубликовала в своем официальном блоге , показывающее, как собрать локальный кластер из нескольких ИИ-ПК на базе центральных процессоров Ryzen AI Max+ 395 и использовать его для запуска крупной языковой модели Kimi K2.5 класса триллион параметров. Такой подход дает возможность проводить распределенный инференс без необходимости в облачных сервисах и дорогостоящем серверном оборудовании.
Подробнее о кластерах из 4-х ИИ-ПК Ryzen AI Max+ 395
В качестве демонстрации использовалась сеть из четырех настольных систем с процессорами AMD Ryzen AI Max+ 395 (скорее всего, системы Minisforum) и по 128 ГБ оперативной памяти на узел. Объединялись компактные ИИ-ПК с помощью 5 Гбит/с Ethernet. Работа велась в операционной системе Ubuntu 24.04.3 LTS, в качестве движка инференса был выбран Llama.cpp RPC, а запускали ИИ-модель Kimi-K2.5 (UD_Q2_K_XL) (375 ГБ). Руководство описывает по шагам весь процесс — от подготовки оборудования и настройки драйверов до запуска распределенного инференса, при котором модель работает так, как если бы она находилась на одном логическом ускорителе.
Упрощенная схема сетевой топологии кластера из 4-х ИИ-ПК на базе AMD Ryzen AI Max+ 395. Источник: .
В материале объясняется, как на каждом узле увеличить доступный объем адресуемой видеопамяти путем настройки параметров ядра Linux, а также перечисляются две основные стратегии подготовки программной среды: использование готовых бинарных сборок с поддержкой ROCm (через Lemonade SDK) или компиляция llama.cpp с нуля с включением поддержки ROCm и RPC-протокола. Это позволяет каждому узлу в кластере участвовать в распределенной нагрузке при инференсе.
Одна из ключевых частей руководства посвящена организации RPC-связи между узлами. С помощью механизма удаленных вызовов процедур (RPC) основной контролирующий узел распределяет части модели и вычислительные задачи по всем остальным машинам, так что в сумме они работают как единый мощный ИИ-ускоритель.
Помимо этого, в статье AMD описаны варианты запуска самого инференса как через консольный интерфейс (llama-cli), так и через серверный режим с веб-интерфейсом и OpenAI-совместимым API (llama-server). Последний делает такой локальный кластер удобным для интеграции с внешними приложениями и UI-фронтэндами без изменения кода клиентов. AMD также демонстрирует, что оптимизации, такие как Flash Attention через API rocWMMA, могут существенно ускорять обработку длинных контекстов модели, снижая задержки и повышая пропускную способность генерации — с 3,46 токенов в секунду до 8.30 токенов в секунду при декодировании 128 токенов вс длиной контекста в 8192 токенов.
Повышение производительности кластера на базе 4-х ИИ-ПК на базе AMD Ryzen AI Max+ 395 при использовании Flash Attention через API rocWMMA. Источник: .
Выводы
AMD подчеркивает, что такие локальные ИИ-кластеры перестали быть уделом только облака или серверных GPU: современные настольные ИИ-ПК способны обеспечивать производительность, достаточную для запуска самых больших моделей, при этом сохраняя контроль над данными, соблюдая требования приватности и снижая эксплуатационные затраты по сравнению с облачными сервисами. В целом, это наглядный пример того, как на волне успеха Nvidia DGX Spark, конкурент в лице AMD также популяризирует собственные компактные ИИ-ПК, продвигая возможность инференса крупных языковых моделей и сборки кластера сразу из четырех систем.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.