GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型-六六导航站

GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

2025-05-15 11:34:27 小编：六六导航站

GPDiT是什么

GPDiT（Generative Pre-trained Autoregressive Diffusion Transformer）是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型，模型结合扩散模型和自回归模型的优势，基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制，减少计算成本，推出一种无参数的旋转基时间条件策略，有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色，展示了在多种视频建模任务中的多功能性和适应性。

GPDiT的主要功能

高质量视频生成：生成具有高时间一致性和运动连贯性的长序列视频。视频表示学习：基于自回归建模和扩散过程，学习视频的语义和动态表示，用在下游任务。少样本学习：够快速适应多种视频处理任务，如风格转换、边缘检测等。多任务学习：支持多种视频处理任务，如灰度转换、深度估计、人物检测等。

GPDiT的技术原理

自回归扩散框架：基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。轻量级因果注意力：引入种轻量级因果注意力机制，消除训练期间干净帧之间的注意力计算，减少计算成本，不降低生成性能。旋转基时间条件机制：推出一种无参数的旋转基时间条件策略，将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转，去除adaLN-Zero及相关参数，有效编码时间信息。连续潜在空间：在连续潜在空间中进行建模，增强了生成质量和表示能力。