VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
2025-01-03 09:35:00 小编:六六导航站
VideoPhy是什么
VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中生成视频,进行人类及自动评估。研究发现,即使是最佳模型,也仅有39.6%的视频能同时遵循文本提示和物理法则。VideoPhy强调视频生成模型在模拟物理世界方面的局限性,推出自动评估工具VideoCon-Physics,支持未来模型的可靠评估。

VideoPhy的主要功能
评估视频生成模型的物理常识: 测试文本到视频(text-to-video)生成模型是否能生成符合物理常识的视频内容。提供标准化测试集: 包含688个经过人类验证的描述性字幕(captions),涉及固体-固体、固体-流体和流体-流体之间的物理互动,用在生成视频并进行评估。人类评估与自动评估: VideoPhy结合人类评估和自动评估工具VideoCon-Physics,评估视频的语义一致性和物理常识。模型性能比较: 比较不同模型在VideoPhy数据集上的表现,确定哪些模型在遵循物理法则方面表现更好。促进模型改进: 揭示现有模型在模拟物理世界方面的不足,推动研究者开发出更符合物理常识的视频生成模型。VideoPhy的技术原理
数据集构建: VideoPhy的数据集基于三阶段的流程构建,包括使用大型语言模型生成候选字幕、人类验证字幕的质量及标注视频生成的难度。视频生成: 用不同的文本到视频生成模型,根据VideoPhy数据集中的字幕生成视频。人类评估: 基于亚马逊机械土耳其(Amazon Mechanical Turk)上的人工评估者对生成的视频进行语义一致性和物理常识的评分。自动评估模型: 推出VideoCon-Physics,基于VIDEOCON视频-语言模型的自动评估器,用微调评估生成视频的语义一致性和物理常识。性能指标: 用二元反馈(0或1)评估视频的语义一致性(Semantic Adherence, SA)和物理常识(Physical Commonsense, PC)。VideoPhy的项目地址
项目官网:videophy.github.ioGitHub仓库:https://github.com/Hritikbansal/videophyHuggingFace模型库:https://huggingface.co/datasets/videophysics/videophyhttps://huggingface.co/videophysics/videocon_physics(VideoCon-Physics)arXiv技术论文:https://arxiv.org/pdf/2406.03520VideoPhy的应用场景
视频生成模型开发与测试:开发和测试新的文本到视频生成模型,确保生成符合物理常识的视频内容。计算机视觉研究:在计算机视觉领域,用在研究和改进视频理解算法,特别是在涉及物理交互和动态场景理解方面。教育与培训:在教育领域,作为教学工具,帮助学生理解物理现象和视频内容的生成过程。娱乐产业:在电影、游戏和虚拟现实制作中,生成更加真实和符合物理规则的动态场景。自动化内容生成:为新闻、体育和其他媒体内容的自动化生成提供技术支持,提高内容的质量和真实性。- 猜你喜欢
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
-
-
-
MJ Prompt Tool提示指令
-
绘AI提示指令
- 相关AI应用
-
AIPRM提示指令
-
Snack Prompt提示指令
-
PublicPrompts提示指令
-
Generrated提示指令
-
LangGPT提示指令
-
AI Short提示指令
-
-
ClickPrompt提示指令
-
PromptHero提示指令
- 推荐AI教程资讯
- Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯
- Micro LLAMA – 教学版 LLAMA 3模型实现,用于学习大模型的核心原理
- GenCast – 谷歌DeepMind推出的AI气象预测模型
- FullStack Bench – 字节豆包联合M-A-P社区开源的全新代码评估基准
- Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型
- Fish Speech 1.5 – Fish Audio 推出的语音合成模型,支持13种语言
- ClearerVoice-Studio – 阿里通义实验室开源的语音处理框架
- PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型
- Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架
- Fox-1 – TensorOpera 开源的小语言模型系列
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
AI Prompt Generator2025-01-02提示指令
-
PromptHero2025-01-02提示指令
-
Learning Prompt2025-01-02提示指令
-
FlowGPT2024-12-31提示指令