13 августа 2025 года компания Nvidia представила новую версию своего программного стека для оптимизации инференса искусственного интеллекта — Dynamo 0.4. Nvidia заявляет, что Dynamo 0.4 обеспечивает прирост производительности при запуске ИИ моделей в 4 раза.
Подробнее о Dynamo 0.4
Версия Dynamo 0.4 значительно улучшает процесс инференса ИИ-моделей благодаря ряду нововведений: четырехкратному ускорению производительности, автомасштабированию на основе SLO и мониторингу в реальном времени. Как отмечает Nvidia, эти возможности критически важны для поддержки новых передовых моделей ИИ, таких как gpt-oss от OpenAI и Kimi K2 от Moonshot AI, недавно ставших лидерами среди решений с открытым исходным кодом. Четырехкратное повышение скорости инференса в Dynamo 0.4 достигается за счет дезагрегации процессов на архитектуре NVIDIA Blackwell. Этот подход разделяет фазы предварительного заполнения (prefill) и декодирования при инференсе модели, распределяя их на каждый отдельный GPU, что обеспечивает гибкое управление ресурсами и повышает общую эффективность системы. Для платформ GB200 NVL72 и Hopper также добавлены детальные руководства по параллельному развертыванию.
Обновление также включает новый инструмент для настройки дезагрегированных сред предварительного заполнения и декодирования (PD), упрощающий их конфигурирование. Интеграция с Kubernetes позволяет реализовать автомасштабирование PD на основе SLO, динамически адаптируясь к нагрузке и оптимизируя использование ресурсов. Расширенные метрики наблюдаемости обеспечивают мониторинг производительности в реальном времени, повышая отказоустойчивость через перенаправление запросов и ускоренное обнаружение сбоев.
Значительный прирост производительности был продемонстрирован на примере запуска модели OpenAI gpt-oss-120b с использованием TensorRT-LLM на ускорителе B200, где заметно увеличивается скорость обработки длинных входных последовательностей. Это особенно ценно для задач генерации кода и реферирования, где ключевое значение имеет поддержание высокой пропускной способности без роста затрат. Модель DeepSeek-R1 671B, запущенная на платформе GB200 NVL72, показала увеличение пропускной способности в 2,5 раза без дополнительных расходов на инференс, подтверждая способность Dynamo повышать производительность при сохранении экономической эффективности.
Прирост производительности инференса OpenAI gpt-oss-120b и DeepSeek-R1 671B при использовании Dynamo 0.4. Источник: Nvidia.
Для помощи в оптимизации конфигураций Dynamo 0.4 представляет AIConfigurator. Этот инструмент рекомендует оптимальные настройки дезагрегации PD и моделирует параллельные стратегии. Используя предварительно собранные данные о производительности и методы симуляции планирования, AIConfigurator гарантирует выполнение пользовательских SLO в рамках выделенных бюджетов GPU, максимизируя эффективность пропускной способности. Инструмент Planner в обновлении получил функцию автомасштабирования на основе SLO. Это позволяет командам, отвечающим за инференс, заранее оптимизировать распределение ресурсов для стабильного достижения целевых показателей, таких как время до первого токена (TTFT) и задержка между токенами (ITL). Прогнозируя будущие паттерны трафика и адаптируя ресурсы, Planner поддерживает оптимальную производительность и экономичность.
Панель управления AIConfigurator CLI. Источник: Nvidia.
Возможности реального мониторинга — фундаментальное улучшение в Dynamo 0.4. Расширенный сбор метрик через Prometheus обеспечивает легкую интеграцию с инструментами вроде Grafana. Это позволяет непрерывно отслеживать состояние и производительность системы, что критично для соблюдения строгих SLO в крупномасштабных средах. Обновление также повышает отказоустойчивость за счет перенаправления запросов в процессе их выполнения, уменьшая задержки и избыточные вычисления. Также ускоренные механизмы обнаружения сбоев устраняют задержки при передаче данных, повышая общую устойчивость и надежность системы.
Выводы
Nvidia совместно с сообществом продолжает активно развивать платформу Dynamo, внедряя все более и более продвинутый функционал и ускоряя производительность инференса моделей искусственного интеллекта. Кроме того, Nvidia расширяет поддержку новых ИИ-моделей, что делает Dynamo более востребованным и конкурентоспособным решением в сравнении с другими оптимизаторами инференса.
Сейчас тут ничего нет. Ваш комментарий может стать первым.
Получите скидку 3 000 рублей или бесплатную доставку за подписку на новости*!
* — скидка предоставляется при покупке от 30 000 рублей, в ином случае предусмотрена бесплатная доставка.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Мы получили ваш отзыв!
Он появится на сайте после модерации.
Продолжная использовать наш сайт, вы даете согласие на использование файлов Cookie, пользовательских данных (IP-адрес, вид операционной системы, тип браузера, сведения о местоположении, источник, откуда пришел на сайт пользователь, с какого сайта или по какой рекламе, какие страницы
открывает и на какие страницы нажимает пользователь) в целях функционирования сайта, проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.