Step-Video-T2V – 阶跃星辰开源的文本到视频模型
2025-03-18 13:48:06 小编:六六导航站
Step-Video-T2V是什么
Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型,拥有 300 亿参数,能生成长达 204 帧的高质量视频。模型基于深度压缩的变分自编码器(Video-VAE),实现 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。Step-Video-T2V 配备双语文本编码器,支持中英文提示输入,通过直接偏好优化(DPO)方法进一步提升视频质量。模型基于扩散的 Transformer(DiT)架构和 3D 全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。

Step-Video-T2V的主要功能
高质量视频生成:Step-Video-T2V 拥有 300 亿参数,能生成长达 204 帧的高质量视频,支持 544×992 分辨率。双语文本支持:配备双语文本编码器,支持中英文提示词的直接输入,能理解并生成与文本描述相符的视频。动态与美学优化:通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法,生成具有强烈动态效果和高美学质量的视频。Step-Video-T2V的技术原理
深度压缩的变分自编码器(Video-VAE):Step-Video-T2V 使用了深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。双语文本编码器:模型配备了两个预训练的双语文本编码器,能处理中文和英文提示。Step-Video-T2V 可以直接理解中英文输入,生成与文本描述相符的视频。基于扩散的 Transformer(DiT)架构:Step-Video-T2V 基于扩散的 Transformer(DiT)架构,包含 3D 全注意力机制。通过 Flow Matching 训练,将输入噪声逐步去噪为潜在帧,用文本嵌入和时间步作为条件因子。在生成具有强烈运动动态和高美学质量的视频方面表现出色。直接偏好优化(DPO):为了进一步提升生成视频的质量,Step-Video-T2V 引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。级联训练策略:模型采用了级联训练流程,包括文本到图像(T2I)预训练、文本到视频/图像(T2VI)预训练、文本到视频(T2V)微调和直接偏好优化(DPO)训练。加速了模型的收敛,充分利用了不同质量的视频数据。系统优化:Step-Video-T2V 在系统层面进行了优化,包括张量并行、序列并行和 Zero1 优化,实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry,优化数据传输效率和识别性能瓶颈。Step-Video-T2V的项目地址
Github仓库:https://github.com/stepfun-ai/Step-Video-T2VHuggingFace模型库:https://huggingface.co/stepfun-ai/stepvideo-t2varXiv技术论文:https://arxiv.org/pdf/2502.10248Step-Video-T2V的应用场景
视频内容创作:Step-Video-T2V 能根据文本提示快速生成创意视频,帮助创作者节省时间和精力,降低视频制作的门槛。广告制作:可以为品牌和广告商生成个性化的视频广告内容,提升广告的吸引力和传播效果。教育与培训:Step-Video-T2V 可以生成教学视频,帮助学生更好地理解和记忆知识。娱乐与影视:为影视制作提供创意素材,辅助生成特效、动画或短剧片段,加速创作流程。社交媒体:Step-Video-T2V 为用户提供个性化的视频生成工具,丰富社交平台的内容生态,提升用户互动性。生成的视频可以用于社交媒体的创意内容分享。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Step-Video-T2V – 阶跃星辰开源的文本到视频模型
- unsloth – 开源的大语言模型微调工具
- Matrix3D – 南大联合Apple、港科大推出的统一摄影测量模型
- Light-A-Video – 上海AI Lab联合交大等高校推出的视频重照明方法
- Finedefics – 北大团队推出的细粒度多模态大模型
- Step-Audio – 阶跃星辰开源的语音交互模型
- SkyReels-V1 – 昆仑万维开源首个面向AI短剧创作的视频生成模型
- LangFlow – AI应用构建工具,拖拽组件创建复杂工作流
- SkyReels-A1 – 昆仑万维开源的表情动作可控算法
- “李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!
- 精选推荐
-
元典智库2024-12-31法律助手
-
Piano Genie2025-02-27提示指令
-
Ezdubs.ai2025-02-18提示指令
-
文心一言2025-01-29提示指令
-
Superflow Rewrite2025-02-18法律助手
-
WisdomAI by Searchie2025-01-29法律助手