Perception-as-Control – 阿里通义实验室推出的图像动画框架
2025-03-31 15:10:44 小编:六六导航站
Perception-as-Control是什么
Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相机和物体运动转化为直观、一致的视觉变化,用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。Perception-as-Control框架基于U-Net架构的扩散模型,结合参考图像的外观信息和运动控制信号的运动信息,生成可控的图像动画。Perception-as-Control推出三阶段训练策略,平衡相机和物体运动控制,促进细粒度运动控制,在多种应用场景中展现出优越的性能。

Perception-as-Control的主要功能
细粒度协同运动控制:实现相机和物体运动的协同控制,支持用户用细粒度的方式控制动画中的各个元素。让用户精确地调整场景中物体的运动及相机的视角变化。多种运动相关视频合成任务:支持多种与运动相关的视频合成任务,包括基于图像的运动生成、基于视频的运动克隆、运动转移和运动编辑。运动生成:根据用户输入的参考图像和2D轨迹生成动画。运动克隆:模仿源视频中的相机和物体运动。运动转移:将源视频中的局部运动转移到参考图像中的不同位置和尺度的对象上。运动编辑:用户提供分割掩码,编辑分割掩码内的运动。3D感知运动表示:基于构建3D感知运动表示,将复杂的3D场景简化为关键对象部分(用单位球表示)和世界包络,实现直观且一致的视觉变化。Perception-as-Control的技术原理
3D感知运动表示:将3D场景简化为关键对象部分(用单位球表示)和世界包络,基于3D点跟踪和视觉里程计技术捕捉局部物体运动和全局相机运动。网络架构:基于去噪U-Net架构,用两个轻量级编码器分别编码相机和物体控制信号,避免RGB级别的干扰,融合模块合并编码信号。参考图像注入:ReferenceNet将参考图像的外观信息注入到生成过程中,确保生成的视频保持参考图像的特定外观。三阶段训练策略:第一阶段:仅训练相机编码器,处理仅含相机运动的视频剪辑。第二阶段:加入物体编码器和融合模块,处理包含相机和物体运动的视频剪辑。第三阶段:基于稀疏单位球实现细粒度物体运动控制,自适应确定每个渲染点的控制范围。扩散模型:用图像扩散概率模型的基本原理,使用去噪U-Net架构生成视频,优化目标是最小化预测噪声与实际噪声之间的差异,条件输入包括参考图像和运动控制信号。Perception-as-Control的项目地址
项目官网:https://chen-yingjie.github.io/projects/Perception-as-Control/GitHub仓库:https://github.com/chen-yingjie/Perception-as-ControlarXiv技术论文:https://arxiv.org/pdf/2501.05020Perception-as-Control的应用场景
电影和视频特效:生成具有特定运动的动画场景,模仿现有视频中的复杂运动,或将一个角色的运动转移到另一个角色上。游戏开发:为游戏角色和物体生成自然且可控的动画,提升游戏的沉浸感和动态效果。虚拟现实(VR)和增强现实(AR):在VR环境中生成实时动画反馈,增强用户互动体验;在AR应用中将虚拟物体动画与现实场景融合。广告和营销:生成吸引人的动态广告和品牌推广动画,提升品牌形象和记忆点。教育和培训:生成科学实验动画和技能培训模拟动画,帮助学生和学员更好地理解和掌握知识和技能。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Perception-as-Control – 阿里通义实验室推出的图像动画框架
- 掘力计划第 20 期:Flutter 混合开发的混乱之治
- Motion Dreamer – 香港科技大学推出的运动合理视频生成框架
- Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型
- 中国算力网络铺开,竟是运营商走在前列?
- FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术
- SVFR – 腾讯优图联合厦门大学推出的通用视频人脸修复统一框架
- TimesFM 2.0 – 谷歌研究团队开源的时间序列预测模型
- AI性能基准测试从此有了「中国标准」!英伟达、谷歌可以试试这套算力卷
- NeuralSVG – 文本驱动矢量图形生成技术,转化为有层次结构的矢量图形
- 精选推荐
-
元典智库2024-12-31法律助手
-
Noise Eraser2025-02-18提示指令
-
通义千问2025-01-30提示指令
-
Copypage2025-02-19法律助手
-
Content Writer Tools2025-01-30法律助手
-
Guide.AI2025-02-21提示指令