VPP – 清华和星动纪元推出的首个AIGC机器人大模型
2025-05-13 11:49:13 小编:六六导航站
VPP是什么
VPP(Video Prediction Policy)是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型,学习互联网上的大量视频数据,直接预测未来场景生成机器人动作。VPP能提前预知未来,实现高频预测和动作执行,支持跨人形机器人本体切换,显著降低对高质量机器人真机数据的依赖。VPP在Calvin ABC-D基准测试中取得接近满分的成绩,在真实世界的复杂灵巧操作任务中表现出色。VPP的开源为具身智能机器人的发展提供强大的技术支持。

VPP的主要功能
提前预测未来场景:让机器人在行动前“看到”未来,增强泛化能力。高频预测与动作执行:实现6-10Hz的预测频率和超过50Hz的控制频率,提升动作流畅性。跨机器人本体学习:直接学习不同形态机器人的视频数据,包括人类操作数据,降低数据获取成本。多任务学习与泛化:在复杂的真实世界任务中表现出色,例如抓取、放置、堆叠、倒水和工具使用。可解释性与调试优化:基于预测视频提前发现失败场景,便于开发者进行针对性优化。VPP的技术原理
视频扩散模型(VDM)的预测性视觉表示:基于预训练的视频扩散模型(如Stable Video Diffusion)学习预测未来场景。视频扩散模型基于单步去噪生成预测性视觉表示,视觉表示包含当前帧,能明确表示未来帧。动作学习:用Video Former聚合预测性视觉表示,提取时空信息。基于扩散策略(Diffusion Policy)生成机器人动作,实现从预测到执行的无缝过渡。优化与泛化:VPP基于互联网视频数据和机器人操作数据进行训练,减少对高质量真机数据的依赖。基于跨本体学习,VPP能直接学习不同形态机器人的视频数据,提升模型的泛化能力。VPP的项目地址
项目官网:https://video-prediction-policy.github.io/GitHub仓库:https://github.com/roboterax/video-prediction-policyarXiv技术论文:https://arxiv.org/pdf/2412.14803VPP的应用场景
家庭服务:完成家务(倒水、拿东西)、照顾老人或儿童(递送物品)。工业制造:用在零件抓取、货物搬运和堆叠,提高生产效率。医疗辅助:协助手术器械传递、康复训练和病房物品递送。教育与研究:帮助学生理解复杂操作流程,用在实验室实验操作。服务行业:如餐厅送餐、酒店行李搬运和公共场合导览。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- VPP – 清华和星动纪元推出的首个AIGC机器人大模型
- Amazon Nova Premier – 亚马逊推出的多模态AI模型
- ICEdit – 浙江大学联合哈佛大学推出的指令式图像编辑框架
- FlexiAct – 清华联合腾讯推出的动作迁移模型
- Klavis AI – 开源MCP集成平台,快速接入生产级MCP服务器
- oli – 开源的终端AI编程助手,支持代码辅助与解释
- Mistral Medium 3 – Mistral AI推出的多模态语言模型
- Open Computer Agent – Hugging Face 推出的免费云端 AI Agent 工具
- Absolute Zero – 清华大学等机构推出的语言模型推理训练方法
- Avatar IV – HeyGen 最新推出的AI数字人模型
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令
-
Soundraw2025-02-24提示指令