Top.Mail.Ru
NVIDIA DGX Spark: мощный старт, но противоречивые тесты | Блог Serverflow Скачать
прайс-лист
Бесплатная
доставка по РФ
Скидка
за отзыв!
Distribution of
Server Components
8 (800) 222-70-01 Консультация IT-специалиста Сравнение

NVIDIA DGX Spark: мощный старт, но противоречивые тесты

~ 2 мин
187
Простой
Новости
NVIDIA DGX Spark: мощный старт, но противоречивые тесты

Введение

Свежие тесты NVIDIA DGX Spark с прошивкой 580.95.05 и Ollama v0.12.6 показали весьма неоднозначную картину. Компактный суперкомпьютер обещал провести революцию в секторе инференса LLM, но цифры выглядят куда менее впечатляюще, если дело касается запуска ИИ в Q4_K_M.

Подробнее о результатах тестов DGX Spark

В формате MXFP4 компактная ИИ-станция DGX Spark действительно работает очень хорошо. В этом режиме Spark выдает почти 40 токенов/с на крупные модели класса MoE, такие как gpt-oss 120b и 20b, что по меркам настольных решений просто феноменально. Показатели инференса в диапазоне 41–58 токенов/с выглядят даже лучше, чем на привычных H200 при BF16. Казалось бы — победа.

Но дальше начинается хаос. Все остальные модели, особенно в квантизациях Q4_K_M и Q8_0, выдают катастрофически низкую производительность. Даже легкие варианты вроде LLaMA 8B и Gemma 12B в q4_K_M едва вытягивают 7k и 1.8k токенов/с на префилле, но при декоде проваливаются до 10-30 токенов/с в среднем. Это уровень прошлогодних решений, и уж точно не то, чего ждешь от DGX Spark с его новой высокопроизводительной архитектурой.
Серьёзные проблемы и с масштабированием: Qwen3 32B, несмотря на компактный формат q4_K_M, деградирует до 9 токенов/с при декодировании, а версия q8_0 падает еще ниже. DeepSeek-R1 14B, казалось бы, должен был стать сбалансированным компромиссом, но и он теряет эффективность при переходе с MXFP4 на q8_0 — скорость падает почти вдвое.

Результаты инференса на DGX Spark через Ollama
Результаты инференса популярных LLM на DGX Spark в связке с движком Ollama. Источник: Ollama.

Выводы

Складывается ощущение, что Spark оптимизирован только под собственную реализацию MXFP4 и не справляется с кастомными, популярными форматами квантования FP8, которые массово используются в экосистеме Ollama и других движков инференса. При этом даже у моделей меньшего размера пропадает ожидаемое преимущество от встроенного ускорения инференса.Если NVIDIA действительно хочет, чтобы Spark стал новым стандартом инференса, ей придется серьезно проработать проблемы с производительностью в квантованных моделях и обеспечить нормальную совместимость вне формата MXFP4. Иначе DGX Spark останется дорогим стендом для тестирования локальных нейросетей OpenAI.
Автор: Serverflow Serverflow
Поделиться

Комментарии 0

Написать комментарий
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Написать отзыв
До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Написать комментарий

Комментарий появится на сайте после предварительной модерации

До 6 фото, размером до 12Мб каждое
Мы получили ваш отзыв!

Он появится на сайте после модерации.

Мы свяжемся с вами утром

График работы: Пн-Пт 10:00-19:00 (по МСК)

Обработаем вашу заявку
в ближайший рабочий день

График работы: Пн-Пт 10:00-19:00 (по МСК)