Свежие тесты NVIDIA DGX Spark с прошивкой 580.95.05 и Ollama v0.12.6 показали весьма неоднозначную картину. Компактный суперкомпьютер обещал провести революцию в секторе инференса LLM, но цифры выглядят куда менее впечатляюще, если дело касается запуска ИИ в Q4_K_M.
Подробнее о результатах тестов DGX Spark
В формате MXFP4 компактная ИИ-станция DGX Spark действительно работает очень хорошо. В этом режиме Spark выдает почти 40 токенов/с на крупные модели класса MoE, такие как gpt-oss 120b и 20b, что по меркам настольных решений просто феноменально. Показатели инференса в диапазоне 41–58 токенов/с выглядят даже лучше, чем на привычных H200 при BF16. Казалось бы — победа.
Но дальше начинается хаос. Все остальные модели, особенно в квантизациях Q4_K_M и Q8_0, выдают катастрофически низкую производительность. Даже легкие варианты вроде LLaMA 8B и Gemma 12B в q4_K_M едва вытягивают 7k и 1.8k токенов/с на префилле, но при декоде проваливаются до 10-30 токенов/с в среднем. Это уровень прошлогодних решений, и уж точно не то, чего ждешь от DGX Spark с его новой высокопроизводительной архитектурой.
Серьёзные проблемы и с масштабированием: Qwen3 32B, несмотря на компактный формат q4_K_M, деградирует до 9 токенов/с при декодировании, а версия q8_0 падает еще ниже. DeepSeek-R1 14B, казалось бы, должен был стать сбалансированным компромиссом, но и он теряет эффективность при переходе с MXFP4 на q8_0 — скорость падает почти вдвое.
Результаты инференса популярных LLM на DGX Spark в связке с движком Ollama. Источник: Ollama.
Выводы
Складывается ощущение, что Spark оптимизирован только под собственную реализацию MXFP4 и не справляется с кастомными, популярными форматами квантования FP8, которые массово используются в экосистеме Ollama и других движков инференса. При этом даже у моделей меньшего размера пропадает ожидаемое преимущество от встроенного ускорения инференса.Если NVIDIA действительно хочет, чтобы Spark стал новым стандартом инференса, ей придется серьезно проработать проблемы с производительностью в квантованных моделях и обеспечить нормальную совместимость вне формата MXFP4. Иначе DGX Spark останется дорогим стендом для тестирования локальных нейросетей OpenAI.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Скидка 1 500 ₽ или бесплатная доставка - уже сейчас 🔥
Мы ценим обратную связь от клиентов. При оформлении заказа вы можете сообщить о своём намерении поделиться впечатлением о работе ServerFlow после получения товара.
* - скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка до ПВЗ СДЭК.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.
При оформлении заказа в ServerFlow вы можете сообщить о намерении оставить отзыв о нашей работе после получения товара.
Нам важно ваше честное мнение. Оно помогает развивать сервис и даёт другим клиентам представление о нашей работе.
Вы можете оставить отзыв на удобной для вас платформе:
Google Maps
2GIS
Яндекс Карты
Как работает акция
Применяя промокод, вы подтверждаете намерение поделиться впечатлением о работе ServerFlow после получения заказа. Мы применяем бонус уже к текущему заказу в знак благодарности за обратную связь.
Условия акции:
скидка 1 500 ₽ при заказе от 30 000 ₽
или бесплатная доставка* при заказе до 30 000 ₽
* Бесплатная доставка заказа осуществляется до ПВЗ СДЭК.