Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型-六六导航站

Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型

2025-01-14 15:26:49 小编：六六导航站

Motion Prompting是什么

Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术，基于运动轨迹（motion trajectories）控制和引导视频内容的生成。Motion Prompting用点轨迹作为灵活的运动表示，能编码从单个点到全局场景的任意复杂度的运动。用户能设计“运动提示”（motion prompts），类似于文本提示，激发视频模型的不同能力，包括对象控制、相机控制、物理现象模拟等。Motion Prompting提高了视频生成的灵活性和准确性，为未来交互式视频生成和世界模型查询提供新的可能性。

Motion Prompting的主要功能

对象控制：基于运动提示，精细控制视频中特定对象的运动，如旋转或移动。相机控制：实现视频中相机的运动控制，包括平移、旋转和变焦等。物理现象模拟：展示视频中的物理现象，如流体动力学（水、烟雾）和刚体动力学。同时对象和相机控制：组合对象控制和相机控制的运动提示，实现复杂的场景交互。拖动式图像编辑：支持用户基于拖动操作编辑图像，实现动态图像编辑。运动转移：将一个视频中的运动转移到另一个视频的第一帧上，实现运动的再利用。运动放大：放大视频中的细微运动，让细微运动更明显。

Motion Prompting的技术原理

点轨迹表示：用点轨迹（point trajectories）作为运动的表示方法，捕捉视频中任意数量点的运动，包括对象特定运动或全局场景运动。条件视频生成模型：在预训练的视频扩散模型基础上，训练一个控制网络（ControlNet），接受运动提示作为条件输入。运动提示构建：将用户输入（如鼠标拖动）转换为点轨迹，或基于计算机视觉技术从高级用户请求中生成详细的运动轨迹。轨迹编码：将点轨迹编码为空间-时间体积（space-time volume），每个轨迹在访问的每个位置放置一个唯一的嵌入向量。模型训练：用从视频中提取的轨迹数据训练模型，根据轨迹提示生成视频。轨迹稀疏度调整：用户能调整轨迹的稀疏度，平衡控制的精细度和视频模型的自由度。多任务处理：基于组合不同的运动提示，在单一模型中实现多种复杂的视频生成任务。

Motion Prompting的项目地址

项目官网：motion-prompting.github.ioarXiv技术论文：https://arxiv.org/pdf/2412.02700

Motion Prompting的应用场景

电影和视频制作：导演和视频制作者创造复杂的动态场景，如特效镜头或动作序列，无需复杂的手动动画制作。游戏开发：游戏开发者生成游戏中的动态背景视频或用在游戏内角色和环境的动态交互。虚拟现实（VR）和增强现实（AR）：在VR和AR应用中，创建更加自然和逼真的虚拟环境和交互效果。交互式媒体艺术：艺术家创造新的交互式艺术作品，观众基于身体动作与艺术作品进行互动。教育和培训：基于模拟真实世界的物理现象和动态场景，用在教育领域，如物理、工程和医学培训。