Свежие тесты NVIDIA DGX Spark с прошивкой 580.95.05 и Ollama v0.12.6 показали весьма неоднозначную картину. Компактный суперкомпьютер обещал провести революцию в секторе инференса LLM, но цифры выглядят куда менее впечатляюще, если дело касается запуска ИИ в Q4_K_M.
Подробнее о результатах тестов DGX Spark
В формате MXFP4 компактная ИИ-станция DGX Spark действительно работает очень хорошо. В этом режиме Spark выдает почти 40 токенов/с на крупные модели класса MoE, такие как gpt-oss 120b и 20b, что по меркам настольных решений просто феноменально. Показатели инференса в диапазоне 41–58 токенов/с выглядят даже лучше, чем на привычных H200 при BF16. Казалось бы — победа.
Но дальше начинается хаос. Все остальные модели, особенно в квантизациях Q4_K_M и Q8_0, выдают катастрофически низкую производительность. Даже легкие варианты вроде LLaMA 8B и Gemma 12B в q4_K_M едва вытягивают 7k и 1.8k токенов/с на префилле, но при декоде проваливаются до 10-30 токенов/с в среднем. Это уровень прошлогодних решений, и уж точно не то, чего ждешь от DGX Spark с его новой высокопроизводительной архитектурой.
Серьёзные проблемы и с масштабированием: Qwen3 32B, несмотря на компактный формат q4_K_M, деградирует до 9 токенов/с при декодировании, а версия q8_0 падает еще ниже. DeepSeek-R1 14B, казалось бы, должен был стать сбалансированным компромиссом, но и он теряет эффективность при переходе с MXFP4 на q8_0 — скорость падает почти вдвое.
Результаты инференса популярных LLM на DGX Spark в связке с движком Ollama. Источник: Ollama.
Выводы
Складывается ощущение, что Spark оптимизирован только под собственную реализацию MXFP4 и не справляется с кастомными, популярными форматами квантования FP8, которые массово используются в экосистеме Ollama и других движков инференса. При этом даже у моделей меньшего размера пропадает ожидаемое преимущество от встроенного ускорения инференса.Если NVIDIA действительно хочет, чтобы Spark стал новым стандартом инференса, ей придется серьезно проработать проблемы с производительностью в квантованных моделях и обеспечить нормальную совместимость вне формата MXFP4. Иначе DGX Spark останется дорогим стендом для тестирования локальных нейросетей OpenAI.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.