Nvidia представила Dynamo 0.4 — 4-кратный прирост производительности ИИ

15.08.2025

~ 2 мин

356

Простой

Новости

Введение

13 августа 2025 года компания Nvidia представила новую версию своего программного стека для оптимизации инференса искусственного интеллекта — Dynamo 0.4. Nvidia заявляет, что Dynamo 0.4 обеспечивает прирост производительности при запуске ИИ моделей в 4 раза.

Подробнее о Dynamo 0.4

Версия Dynamo 0.4 значительно улучшает процесс инференса ИИ-моделей благодаря ряду нововведений: четырехкратному ускорению производительности, автомасштабированию на основе SLO и мониторингу в реальном времени. Как отмечает Nvidia, эти возможности критически важны для поддержки новых передовых моделей ИИ, таких как gpt-oss от OpenAI и Kimi K2 от Moonshot AI, недавно ставших лидерами среди решений с открытым исходным кодом. Четырехкратное повышение скорости инференса в Dynamo 0.4 достигается за счет дезагрегации процессов на архитектуре NVIDIA Blackwell. Этот подход разделяет фазы предварительного заполнения (prefill) и декодирования при инференсе модели, распределяя их на каждый отдельный GPU, что обеспечивает гибкое управление ресурсами и повышает общую эффективность системы. Для платформ GB200 NVL72 и Hopper также добавлены детальные руководства по параллельному развертыванию.

Обновление также включает новый инструмент для настройки дезагрегированных сред предварительного заполнения и декодирования (PD), упрощающий их конфигурирование. Интеграция с Kubernetes позволяет реализовать автомасштабирование PD на основе SLO, динамически адаптируясь к нагрузке и оптимизируя использование ресурсов. Расширенные метрики наблюдаемости обеспечивают мониторинг производительности в реальном времени, повышая отказоустойчивость через перенаправление запросов и ускоренное обнаружение сбоев.

Значительный прирост производительности был продемонстрирован на примере запуска модели OpenAI gpt-oss-120b с использованием TensorRT-LLM на ускорителе B200, где заметно увеличивается скорость обработки длинных входных последовательностей. Это особенно ценно для задач генерации кода и реферирования, где ключевое значение имеет поддержание высокой пропускной способности без роста затрат. Модель DeepSeek-R1 671B, запущенная на платформе GB200 NVL72, показала увеличение пропускной способности в 2,5 раза без дополнительных расходов на инференс, подтверждая способность Dynamo повышать производительность при сохранении экономической эффективности.

Прирост производительности инференса OpenAI gpt-oss-120b и DeepSeek-R1 671B при использовании Dynamo 0.4. Источник: Nvidia.

Для помощи в оптимизации конфигураций Dynamo 0.4 представляет AIConfigurator. Этот инструмент рекомендует оптимальные настройки дезагрегации PD и моделирует параллельные стратегии. Используя предварительно собранные данные о производительности и методы симуляции планирования, AIConfigurator гарантирует выполнение пользовательских SLO в рамках выделенных бюджетов GPU, максимизируя эффективность пропускной способности. Инструмент Planner в обновлении получил функцию автомасштабирования на основе SLO. Это позволяет командам, отвечающим за инференс, заранее оптимизировать распределение ресурсов для стабильного достижения целевых показателей, таких как время до первого токена (TTFT) и задержка между токенами (ITL). Прогнозируя будущие паттерны трафика и адаптируя ресурсы, Planner поддерживает оптимальную производительность и экономичность.

Панель управления AIConfigurator CLI. Источник: Nvidia.

Возможности реального мониторинга — фундаментальное улучшение в Dynamo 0.4. Расширенный сбор метрик через Prometheus обеспечивает легкую интеграцию с инструментами вроде Grafana. Это позволяет непрерывно отслеживать состояние и производительность системы, что критично для соблюдения строгих SLO в крупномасштабных средах. Обновление также повышает отказоустойчивость за счет перенаправления запросов в процессе их выполнения, уменьшая задержки и избыточные вычисления. Также ускоренные механизмы обнаружения сбоев устраняют задержки при передаче данных, повышая общую устойчивость и надежность системы.

Выводы

Nvidia совместно с сообществом продолжает активно развивать платформу Dynamo, внедряя все более и более продвинутый функционал и ускоряя производительность инференса моделей искусственного интеллекта. Кроме того, Nvidia расширяет поддержку новых ИИ-моделей, что делает Dynamo более востребованным и конкурентоспособным решением в сравнении с другими оптимизаторами инференса.

Автор:

Serverflow