GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型
2025-05-15 11:34:27 小编:六六导航站
GPDiT是什么
GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer)是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型,模型结合扩散模型和自回归模型的优势,基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制,减少计算成本,推出一种无参数的旋转基时间条件策略,有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色,展示了在多种视频建模任务中的多功能性和适应性。

GPDiT的主要功能
高质量视频生成:生成具有高时间一致性和运动连贯性的长序列视频。视频表示学习:基于自回归建模和扩散过程,学习视频的语义和动态表示,用在下游任务。少样本学习:够快速适应多种视频处理任务,如风格转换、边缘检测等。多任务学习:支持多种视频处理任务,如灰度转换、深度估计、人物检测等。GPDiT的技术原理
自回归扩散框架:基于自回归方式预测未来的潜在帧,自然地建模运动动态和语义一致性。轻量级因果注意力:引入种轻量级因果注意力机制,消除训练期间干净帧之间的注意力计算,减少计算成本,不降低生成性能。旋转基时间条件机制:推出一种无参数的旋转基时间条件策略,将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转,去除adaLN-Zero及相关参数,有效编码时间信息。连续潜在空间:在连续潜在空间中进行建模,增强了生成质量和表示能力。GPDiT的项目地址
arXiv技术论文:https://arxiv.org/pdf/2505.07344GPDiT的应用场景
视频创作:生成高质量视频,用在广告、影视、动画等。视频编辑:实现风格转换、色彩调整、分辨率提升等。少样本学习:快速适应人物检测、边缘检测等任务。内容理解:自动标注、分类和检索视频内容。创意生成:激发艺术家和设计师的创意,生成艺术风格视频。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型
- NodeRAG – 开源基于异构图的智能检索与生成系统
- Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型
- Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型
- 风宇 – 中国气象局联合华为和南昌大学推出的空间天气大模型
- RepText – Liblib AI联合Shakker Labs推出的多语言视觉文本渲染框架
- Xiaomi MiMo – 小米开源的首个推理大模型
- F-Lite – Freepik联合FAL开源的文生图模型
- ACI.dev – 为AI智能体设计的开源MCP基础设施平台
- URM – 阿里妈妈推出的世界知识大模型
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令