DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架
2025-01-30 18:49:02 小编:六六导航站
DreamVideo-2是什么
DreamVideo-2是创新的零样本视频定制框架,复旦大学和阿里巴巴集团等机构联合推出。DreamVideo-2能根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。框架用参考注意力机制学习主题外观,基于从界定框导出的二值掩码控制运动轨迹,实现精确的运动控制。DreamVideo-2引入混合掩码参考注意力和重加权扩散损失,增强主题表征、平衡主题学习与运动控制。研究团队用WebVid-10M数据集和内部数据支持零样本视频定制任务。DreamVideo-2在主题定制和运动控制方面均优于现有的先进方法,展现在视频定制领域的潜力和实用性。

DreamVideo-2的主要功能
零样本定制:无需在测试时进行微调,能直接根据用户提供的单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频。主题学习:基于参考注意力机制,用模型的固有能力学习、生成特定主题的外观。精确运动控制:用从界定框导出的二值掩码控制视频中主题的运动轨迹,实现精确的运动控制。混合掩码参考注意力:基于混合潜在掩码建模方案增强目标位置的主题表征,提升主题的准确性。重加权扩散损失:区分界定框内外区域的贡献,确保主题学习和运动控制之间的平衡。DreamVideo-2的技术原理
参考注意力机制:基于视频扩散模型的多尺度特征提取能力,将用户提供的单一主题图像作为单帧视频输入模型,获取主题注意力特征。基于残差交叉注意力将主题特征注入到视频特征中,增强模型对特定主题的学习能力。掩码引导的运动模块:将用户定义的界定框序列转换为二值掩码序列,用在指示视频中主题的运动轨迹。设计包含时空编码器和空间ControlNet的掩码引导运动模块,从掩码序列中提取运动信息实现精确控制。混合掩码参考注意力:在参考注意力中引入混合潜在掩码建模,基于调整掩码中背景的权重,增强目标位置的主题表征。重加权扩散损失:设计新的损失函数,基于调整界定框内外区域的损失贡献权重,平衡主题学习和运动控制。训练与推理:在训练阶段,冻结原始3D UNet参数,联合训练新添加的组件,如混合掩码参考注意力和掩码引导的运动模块。在推理阶段,用户提供主题图像和界定框序列,能生成定制视频,无需额外的微调或注意力图修改。数据集构建:构建新的单主题视频数据集,包含视频掩码和边界框,用Grounding DINO、SAM和DEVA模型生成注释,支持零样本视频定制任务。DreamVideo-2的项目地址
项目官网:dreamvideo2.github.ioarXiv技术论文:https://arxiv.org/pdf/2410.13830DreamVideo-2的应用场景
娱乐与社交媒体:用户根据个人喜好,快速生成包含特定人物或物体的视频内容,用在社交媒体分享或个人娱乐。电影与视频制作:电影制作人用DreamVideo-2预览特效或场景,或生成特定的动作序列,减少实际拍摄的成本和时间。广告与营销:基于定制视频内容,企业能创建更具吸引力的广告,用特定产品或品牌为主题,提高广告的个性化和互动性。教育与培训:教育机构用DreamVideo-2生成教学视频,模拟特定的实验过程或历史事件,增强学习体验。新闻与报道:新闻机构快速生成新闻故事的视觉内容,尤其是对于难以现场拍摄的事件。- 猜你喜欢
-
知否AI问答提示指令
-
文心一言提示指令
-
免费AI全能助手提示指令
-
NameGPT名称生成器提示指令
-
AI写作网(免费)提示指令
-
陌言AI创作助手提示指令
-
豆包AI助手 ( 免费 )提示指令
-
文状元智能写作提示指令
-
笔灵AI提示指令
- 相关AI应用
-
ChatMindAI提示指令
-
免费FAE机器人对话提示指令
-
小鱼AI写作(免费)提示指令
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
-
- 推荐AI教程资讯
- DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架
- NotebookMLX – 将PDF文档转换成音频博客开源版的NotebookLM
- HOVER – 英伟达推出的通用人形机器人功能控制器1.5M小模型
- Voice Changer – Cartesia推出转换声音同时保留原始情感的变声器模型
- Oasis – Decart联合Etched推出首款AI实时生成的游戏系统
- 夸克灵知大模型 – 夸克推出的AI学习大模型
- OSAID 1.0 – OSI发布的全球首个开源 AI 官方标准1.0版本
- MobileLLM – Meta推出的适合移动端的语言模型
- SmolLM2 – Hugging Face推出的紧凑型大语言模型
- Genmoai-smol – 对单GPU设备优化的开源AI视频生成模型