MarDini – Meta联合KAUST推出的视频生成扩散模型
2025-01-31 14:03:20 小编:六六导航站
MarDini是什么
MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像到视频生成及视频扩展等多种任务。MarDini将大部分计算资源分配给低分辨率的规划模型,实现空间-时间注意力机制的大规模应用,提高视频生成的效率和灵活性。MarDini能从无标签数据中从头开始训练,无需依赖图像生成的预训练,展现出优异的可扩展性和效率。

MarDini的主要功能
视频插值:在两个给定帧之间生成中间帧,让视频流畅过渡。图像到视频生成:从单张图片出发,生成连续的视频内容。视频扩展:在现有视频基础上添加新的帧,扩展视频长度。慢动作视频生成:基于自回归推断,生成超出训练阶段定义的额外帧,创建慢动作效果的视频。零样本3D视图合成:即便没有3D数据训练,也能生成具有3D一致性的新视角画面。MarDini的技术原理
掩码自回归(MAR)与扩散模型(DM)的结合:MarDini将MAR用在处理时间序列的长期依赖关系,DM专注于空间细节的生成。不对称网络设计:MAR在低分辨率下运行,拥有更多的参数,DM在高分辨率下运行,拥有较少的参数。让模型在低分辨率阶段能处理更多的计算任务,在高分辨率阶段专注于细节生成。端到端训练:基于掩码帧级扩散损失,MarDini从无标签视频数据中进行端到端训练。灵活的掩码策略:MarDini根据不同的任务需求,改变掩码帧的数量和位置,灵活地适应不同的视频生成任务。渐进式训练策略:模型逐步调整掩码比例和训练任务的难度,从视频插值平滑过渡到完整的视频生成。MarDini的项目地址
项目官网:mardini-vidgen.github.ioarXiv技术论文:https://arxiv.org/pdf/2410.20280v1MarDini的应用场景
娱乐与社交媒体:MarDini用在生成社交媒体上分享的短视频内容,如自动生成的舞蹈视频、特效视频或者用户自定义的故事短片。电影与视频制作:在电影后期制作中,MarDini生成或增强特效场景,或用在创建电影预告片中的某些镜头。游戏开发:在游戏开发中,生成游戏内的动态背景视频或者作为游戏角色动画的原型设计工具。虚拟现实(VR)与增强现实(AR):MarDini用在生成VR或AR应用中的动态环境和场景,提升用户沉浸感。广告与营销:MarDini用在创建吸引人的广告视频,基于动态内容吸引潜在客户的注意力。- 猜你喜欢
-
通义千问提示指令
-
知否AI问答提示指令
-
文心一言提示指令
-
免费AI全能助手提示指令
-
NameGPT名称生成器提示指令
-
AI写作网(免费)提示指令
-
陌言AI创作助手提示指令
-
豆包AI助手 ( 免费 )提示指令
-
文状元智能写作提示指令
- 相关AI应用
-
笔灵AI提示指令
-
ChatMindAI提示指令
-
免费FAE机器人对话提示指令
-
小鱼AI写作(免费)提示指令
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
- 推荐AI教程资讯
- MarDini – Meta联合KAUST推出的视频生成扩散模型
- SDXL-EcomID – 阿里推出的单个参考图像生成定制的个性图像框架
- DreamClear – 中科院联合字节推出的高性能图像修复技术
- GitHub Spark – GitHub推出的AI编程工具,零代码开发应用
- SimpleQA – OpenAI开源的新基准,用于评估前沿模型的事实准确性
- VtripGPT – 视旅科技推出首个旅游领域的AI大模型
- D-Edit – 基于图像、文本、掩码的多功能图像编辑框架
- PromptFix – 微软开源的AI修图工具,通过提示词实现多种图像处理
- Red_Panda – Recraft推出的AI图像生成模型
- Show-o – 新加坡国立Show Lab联合字节推出的多模态理解与生成的统一模型