Microsoft представила World-R1 — ИИ-фреймворк, который учит видеомодели понимать 3D-геометрию

29.04.2026

~ 2 мин

336

Простой

Новости

Введение

Исследователи из Microsoft Research и команда Чжэцзянского университета представили World-R1 — новый ИИ-фреймворк, который позволяет генерирующим видео моделям осваивать трехмерную геометрическую согласованность без изменения архитектуры и без использования дорогостоящих 3D-наборов данных. Ключевая идея заключается в том, чтобы превратить 3D-ограничения в сигнал вознаграждения и оптимизировать модель методом обучения с подкреплением. Фреймворк опубликован на arXiv, а код выложен на GitHub под лицензией CC BY-NC-SA 4.0.

Подробнее о Microsoft World-R1

Процесс обучения нейронок пониманию 3D-модальностям представляет собой замкнутый цикл с обратной связью. Сначала модель генерирует видео по текстовому описанию, содержащему инструкции о движении камеры — например, камера облетает стол с фруктами. Затем с помощью предобученной модели Depth Anything 3 по кадрам видео реконструируется трехмерная гауссова сцена, после чего эта сцена рендерится с новых ракурсов. Система сравнивает рендеры с исходным видео, вычисляя ошибку реконструкции и отклонение траектории камеры, а модель Qwen3-VL дополнительно оценивает визуальную достоверность полученных кадров. Все три метрики объединяются в единый скалярный сигнал вознаграждения, который через алгоритм Flow-GRPO — адаптацию обучения с подкреплением для flow-matching моделей — направляет обновление весов видеогенератора.

Разработчики World-R1 внедрили и механизм предотвращения переобучения. Каждые сто шагов обучения на короткий период отключается 3D-вознаграждение и включается только эстетическая метрика. Эта процедура, названная динамической тонкой настройкой, не дает модели чрезмерно замораживать сцену в ущерб естественному движению объектов.

Результаты впечатляют. По метрике PSNR, отражающей качество реконструкции, версия World-R1-Small превосходит базовую Wan 2.1 на 10,23 дБ, а World-R1-Large — на 7,91 дБ. Общее визуальное качество по бенчмарку VBench не снижается. В слепом тестировании с участием двадцати пяти человек геометрическая согласованность видео, сгенерированных World-R1, была признана лучшей в 92% случаев, а общее визуальное предпочтение модель получила в 86% сравнений.

Выводы

World-R1 решает проблему геометрических галлюцинаций — ситуаций, когда при движении камеры объекты в сгенерированном видео деформируются или исчезают, — не трогая внутреннее устройство модели. Это пример удачной композиции уже существующих открытых компонентов — Wan 2.1, Depth Anything 3 и Qwen3-VL, — объединенных через RL-цикл в работающую систему. Открытая публикация кода и сравнительно скромные требования к обучающим данным делают подход доступным для повторения и адаптации, а значит, уже в ближайшие месяцы можно ожидать появления дообученных видеомоделей со значительно более стабильной 3D-геометрией.

Автор:

Serverflow