Совсем недавно AMD анонсировала Halo Box — новейший ИИ-ПК на базе Ryzen AI Max+ 395, а если точнее, то прямой ответ на доминацию Nvidia DGX Spark на рынке домашних инференс-систем. Конечно, это далеко не первое решение на базе топового APU от AMD, но если ранее ассортимент был представлен в основном китайскими поставщиками или Beelink, то теперь красные единолично выходят на сцену, чтобы не дать Хуангу полностью приватизировать этот рынок. В честь такого знакового события, AMD решила выпустить подробный гайд по инференсу локальных LLM семейства Qwen3.5 на ИИ-ПК с чипами Ryzen AI Max+ 395, который мы сегодня не менее подробно разберем по полочкам.
Что под капотом у AMD Halo Box
Разбор гайда не был бы полноценным без анализа начинки AMD Halo Box, но сильно распинаться об этом мы не этом не будем — в нашем блоге мы уже ни раз подробно рассказывали о характеристиках этого передового APU-чипа Ryzen AI Max+ 395, который и определяет все ключевые параметры AMD Halo Box, не считая ввода-вывода. Вместо этого, мы напрямую сравним характеристики AMD Halo Box с его главным конкурентом в лице Nvidia DGX Spark:
Характеристика
AMD Halo Box
NVIDIA DGX Spark
Процессор (CPU)
AMD Ryzen AI Max+ PRO 395, 16 ядер/32 потока, Zen 5
NVIDIA GB10 Grace Blackwell Superchip
20-ядерный ARM (10x Cortex-X925 + 10x Cortex-A725)
GPU
Radeon 8060S (RDNA 3.5), 40 вычислительных блоков
Blackwell, 6144 ядер CUDA, 384 тензорных ядер 5-го поколения
NPU
XDNA 2 NPU до 50 TOPS
-
Основная память
128 ГБ LPDDR5X-8000, 256 ГБ/с
128 ГБ LPDDR5X-8533, 273 ГБ/с
Сеть
1x 2.5GbE RJ-45
1x 10GbE RJ-45, 2x 200GbE QSFP28 ConnectX-7 Smart NIC
Хранилище
2x M.2 2280 PCIe 5.0 (макс. 8 ТБ)
1x M.2 2242 PCIe 5.0 NVMe (макс. 4 ТБ)
Производительность INT8
126 TOPS
500 TOPS (со структурной разряженностью)
Производительность FP4
-
1000 TOPS (со структурной разряженностью)
Цена
$3 999
$4 699
Как мы видим, ситуация весьма неоднозначная. По аппаратным характеристикам оба ИИ-ПК идут более менее ровно, но в ИИ-производительности дело принимает совершенно иной оборот. Дело в том, что нативным форматом вычислений Nvidia DGX Spark является FP4, и благодаря Blackwell-оптимизациям компактный ИИ-бокс обеспечивает производительность в колоссальные для такого устройства 1000 TOPS, но только со структурной разряженностью — на самом деле, реальная производительность DGX Spark достигает 500 TOPS, но и такой уровень весьма неплох.
Также аппаратная поддержка FP4 открывает доступ к использованию мощных движков инфернса, вроде vLLM или внутренних систем Nvidia. В INT8 ситуация не такая радужная, но производительность в 250 TOPS без структурной разряженности тоже смотрится весьма неплохо. У AMD Halo Box поддержки режима FP4 нет, поэтому запускать нейронки придется только в INT8, где ИИ-ПК обеспечивает умеренную производительность в 126 TOPS, которая складывается из NPU с 50 TOPS, GPU с 66 TOPS и CPU с 10 TOPS. Ввиду этого, работать с ИИ придется через движок инференса llama.cpp или его производные, вроде LM Studio или, как в случае с этим гайдом, Ollama, сжимая веса LLM и запуская активации в FP16.
Передовой APU-чип AMD Ryzen AI Max+ PRO 395. Источник: .
Интересный факт: В отличие от GB10, где Nvidia просто по отработанной схеме слепила CPU Grace и GPU Blackwell, архитектура AMD Ryzen AI Max+ PRO 395 более сложна и включает сразу 3 компонента, что может негативно сказываться на общей эффективности чипа, но отражает ставку AMD на свои APU-технологии, но это просто лирическое отступление.
Унифицированная память
AMD делает большой акцент на том, что чип AMD Ryzen AI Max+ PRO 395 поддерживает 128 ГБ унифицированной памяти LPDDR5X, и это очень важный момент, ведь именно благодаря ей инференс нейросетей на AMD Halo Box вообще возможен в принципе.
Концепция унифицированной памяти предполагает, что все вычислительные компоненты (CPU+GPU+NPU) имеют общий доступ к пулу оперативной памяти в 128 ГБ. Вместо того, чтобы загружать веса модели отдельно в небольшой объем графической памяти GPU, как это происходит в дискретных видеокарта, в Halo Box нейронка обрабатывается в большом пуле из 128 ГБ быстрой оперативки LPDDR5X, благодаря чему на компактном ИИ-ПК можно запускать даже крупные 100b-модели, над инференсом которой будет трудиться и GPU, и CPU, и NPU одновременно. Вы также можете настроить через BIOS объем унифицированной памяти, выделяемый непосредственно для GPU (до 64 ГБ), чтобы гибко распределять ресурсы системы между компонентами в зависимости от текущих задач.
Как работает унифицированная память в AMD Ryzen AI Max+ PRO 395 в сравнении с использованием памяти обычного GPU. Источник: .
ПО стэк AMD
У прожженных ИИ-энтузиастов уже успел сложиться стереотип, что инференс через AMD ROCm — это сплошные мучения. На CUDA все всегда было просто — на стэке Nvidia работало буквально все, от нейронок до движков и инструментов оптимизации, без каких-либо заморочек и долгих ручных настроек. У AMD все было куда хуже — ROCm ассоциировался с постоянными багами, ошибками, небольшим ассортиментом функций, да и поддержка нейронок оставляла желать лучшего. Так было два года назад, но сейчас все изменилось — ROCm окреп и стал действительно достойным противником CUDA, проблем стало в разы меньше, и в целом ПО-стэк красных уже фактически стал Plug-n-Play решением. Эта же тенденция сохраняется и на AMD Halo Box — некоторые нюансы с ROCm, конечно, остались, но в сравнении с былыми временами, это небо и земля, так что не переживайте — при настройке актуальной версии ROCm 7.2.1 под инференс моделей Qwen3.5 волосы у вас точно не поседеют.
Руководство по инференсу Qwen-3.5 на AMD Halo Box
В рамках руководства AMD компания предлагает выполнять инференс через движок Ollama версии 0.20.x, который считается самым простым в развертывании и эксплуатации локальных моделей. Очевидно, что на AMD Halo Box можно накатить и другие движки инференса, но поскольку все ИИ-ПК ориентированы в первую очередь на начинающих ИИ-энтузиастов и массового пользователя, которые не хотят заморачиваться с командной строкой и предпочитают работать в приятном веб-интерфейса, AMD сразу предлагает начать работу в Ollama. Конечно, это может оттолкнуть юзеров, желающих получить от логического вывода максимальную гибкость, но им ничего не мешает накатить голую llama.cpp или тот же SGLang, поэтому ИИ-бокс AMD Halo придется по вкусу абсолютно всем, особенно с учетом более демократичного прайса, чем у DGX Spark.
Так вот, для начала нужно накатить на систему Ollama. AMD рекомендует выполнять установку на ОС Ubuntu 24.04 LTS — это не самая актуальная версия дистрибутива Linux, однако она наиболее стабильна, поэтому большинство инференс-станций работают именно на ней. Ничто не мешает вам поставить Ubuntu 26.04 LTS, но если начнутся баги — пеняйте на себя. Как только вы убедились, что система готова, введите команду curl -fsSL https://ollama.com/install.sh | sh.
Убедитесь, что загрузка прошла успешно, после чего можно приступать к установке моделей. В рамках гайда AMD будет тестироваться инференс моделей Qwen3.5 со стандартным квантованием Q4_K_M: 9b, 35b и 122b версии. Для их установки введите команды:
ollama pull qwen3.5:9b
ollama pull qwen3.5:35b
ollama pull qwen3.5:122b
Как вы уже знаете, на рынок вышли более актуальные модели Qwen 3.6 от Alibaba, однако среди них отсутствуют решения свыше 100 миллиардов параметров и компактные решения менее 10 миллиардов параметров. Именно поэтому AMD остановила свой выбор на предыдущем поколении LLM, чтобы показать эффективность Halo Box в разных весовых категориях нейронок. Тем не менее, ничто не мешает вам накатить на Halo Box более актуальные ИИ-модели — в своей недавней статье AMD уже приводила данные со скоростью 68 токенов/с при инференсе Qwen 3.6-35B на AMD Ryzen AI Max+ PRO 395.
Скорость инференса Qwen 3.6-35B на AMD Ryzen AI Max+ PRO 395. Источник: .
После установки нейросетей, запустите их командами:
ollama run qwen3.5:9b
ollama run qwen3.5:35b
ollama run qwen3.5:122b
Само собой, запускать модели одновременно не нужно — выберите нейросеть, которую хотите использовать, и выполните команду run. Чтобы убедиться, что модели запущены на GPU, выполните команду ollama ps. После ввода должна отобразиться запущенная модель и загрузка графического процессора на 100%. Также AMD рекомендует отслеживать использование памяти графическим и центральным процессором в процессе инференса с помощью команды rocm-smi.
А теперь давайте ознакомимся с результатами инференса этих трех моделей на Halo Box, которые приводит компания AMD:
Модель
Общие Параметры
Активные Параметры
Потребление памяти
Скорость генерации
Qwen3.5 9B
9B Dense
9B
6,2 ГБ
29,84 Токенов/с
Qwen3.5 35B-A3B
35B MoE
3B
20,5 ГБ
42,04 Токенов/с
Qwen3.5 122B-A10B
122B MoE
10B
76 ГБ
8,59 Токенов/с
AMD уделяет особое внимание инференсу большой модели Qwen3.5 122B-A10B, отмечая, что даже не при максимальной загрузке графического процессора (61% производительности от GPU и 39% от CPU т.к. модель не помещается в выделенную память), Halo Box все же смог запустить крупную LLM, хоть и с весьма незаурядной скоростью в 8,59 Токенов/с, при использовании MoE-активаций и, по всей видимости, настройки контекстного окна, параметры которой AMD не раскрывает. Но если не брать в расчет сам факт того, что модель “просто запустилась”, то эффективность инференса больших LLM на Halo Box никуда не годится — APU-чип буквально не вывозит столь крупные нейронки в поддерживаемых режимах вычислений. С этим разобрались, но как дела обстоят у DGX Spark? Давайте сравним результаты инференса тех же нейронок на обоих ИИ-боксах:
Модель
Скорость AMD Halo Box
Скорость Nvidia DGX Spark
Qwen3.5 9B
29,84 Токенов/с
108,88 Токенов/с
Qwen3.5 35B-A3B
42,04 Токенов/с
60 Токенов/с
Qwen3.5 122B-A10B
8,59 Токенов/с
29,7 токенов/сек
Само собой, инференс Nvidia DGX Spark выполнялся в режиме NVFP4, что и обеспечило превосходство в скорости генерации токенов над AMD Halo Box даже в развертывании крупной модели Qwen3.5 122B-A10B. Кроме того, более простая архитектура чипа GB10 позволяет ему более эффективно расходовать системные ресурсы и управлять памятью, поэтому отрыв в токенах весьма велик. Тем не менее, моделей с поддержкой NVFP4 не так много, а на решениях AMD можно запускать фактически любые нейросети, которые помещаются в 128 ГБ VRAM, при этом стоимость ИИ-бокса красных на $700 дешевле, чем у аналогичного решения зеленых.
Скорость генерации токенов моделей Qwen3.5 при инференсе на AMD Halo Box. Источник: .
Выводы
Подводя итоги, можно уверенно сказать, что AMD Halo Box — это вполне себе неплохой ИИ-ПК, который может составить достойную конкуренцию Nvidia DGX Spark, причем, не только по цене, но и по производительности. Да, запуск больших LLM 100+ миллиардов параметров не может похвастаться скоростью, зато на инференсе MoE-нейронок с 35b параметрами или легких плотных нейросетей с 9b параметрами решение показывает достойную для своего класса производительность. Добавьте к этому то, что AMD довела до ума свой ПО-стэк ROCm, и у вас получится практически идеальное Plug-n-Play с легким запуском движком и нативным процессом развертывания локальных LLM. AMD Halo Box отлично подойдет для систем локального агентного инференса или даже агентных роев — вы можете спокойно запускать сразу несколько легких нейронок до 9b (в идеале с MoE), подключить их hermes-системе по типу OpenClaw и позволить нейронкам автоматизировать ваши рутинные задачи. Да, сейчас перекос по ИИ-эффективности все-таки склоняется в сторону Nvidia, но это ненадолго, ведь компания AMD уже анонсировала новое поколение APU-чипов AMD Ryzen AI Max+ PRO 400 Gorgon Halo, которые обеспечат поддержку до 192 ГБ унифицированной памяти LPDDR5X-8533 с возможностью выделения 160 ГБ для GPU, что обеспечит кратный прирост производительности следующего поколения ИИ-ПК. А с учетом того, что у Nvidia пока что нет аналогичного по характеристикам решения в том же сегменте рынка, в будущем у AMD будут все шансы стать лидером в сегменте компактных инференс-станций.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.