JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
2025-03-24 09:49:15 小编:六六导航站
JoyGen是什么
JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生成,用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集,在开源的HDTF数据集上验证其优越性能。实验结果表明,JoyGen在唇部与音频同步和视觉质量方面均达到行业领先水平,为说话人脸视频编辑领域提供了新的技术解决方案。

JoyGen的主要功能
唇部与音频同步:基于音频驱动的唇部运动生成技术,确保视频中人物的唇部动作与音频内容精准对应。 高质量视觉效果:生成的视频具有逼真的视觉效果,包括自然的面部表情和清晰的唇部细节。 视频编辑与优化:在现有视频的基础上进行唇部运动的编辑和优化,无需重新生成整个视频。多语言支持:支持中文和英文等不同语言的视频生成,适应多种应用场景。JoyGen的技术原理
第一阶段:音频驱动的唇部运动生成 3D重建模型:3D重建模型从输入的面部图像中提取身份系数,身份系数用在描述人物的面部特征。 音频到运动模型:基于音频到运动模型将音频信号转换为表情系数,表情系数用于控制唇部的运动。深度图生成:结合身份系数和表情系数生成面部的3D网格,基于可微渲染技术生成面部深度图,用在后续的视频合成。 第二阶段:视觉外观合成 单步UNet架构:用单步UNet网络将音频特征和深度图信息整合到视频帧的生成过程中。UNet基于编码器将输入图像映射到低维潜在空间,结合音频特征和深度图信息进行唇部运动的生成。 跨注意力机制:音频特征基于跨注意力机制与图像特征交互,确保生成的唇部运动与音频信号高度一致。解码与优化:生成的潜在表示基于解码器还原为图像空间,生成最终的视频帧。基于L1损失函数在潜在空间和像素空间进行优化,确保生成视频的高质量和同步性。 数据集支持:JoyGen使用包含130小时中文视频的高质量数据集进行训练,确保模型能适应多种场景和语言环境。JoyGen的项目地址
项目官网:https://joy-mm.github.io/JoyGen/GitHub仓库:https://github.com/JOY-MM/JoyGenarXiv技术论文:https://arxiv.org/pdf/2501.01798JoyGen的应用场景
虚拟主播与直播:创建虚拟主播,实现新闻播报、电商直播等,根据输入音频实时生成逼真唇部运动,提升观众体验。动画制作:在动画影视领域,快速生成与配音同步的唇部动画,减少动画师工作量,提高制作效率。 在线教育:生成虚拟教师形象,实现与教学语音同步的唇部动作,让教学视频更生动,增强学生学习兴趣。视频内容创作:帮助创作者快速生成高质量说话人脸视频,如虚拟人物短剧、搞笑视频等,丰富创作形式。 多语言视频生成:支持多语言,将一种语言的视频快速转换为其他语言版本,且唇部动作与新语言音频同步,便于内容国际化传播。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
- EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
- 一加 Ace 2 Pro比红米多的配置值400吗?(不是反问句)
- LIMO – 上海交大推出的高效推理方法,仅需817条训练样本
- SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架
- Nature:LK-99不是超导体
- ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架
- MAETok – 港大联合北大等机构推出的自动编码器
- Eino – 字节跳动开源的大模型应用开发框架
- OpenAI收购“我的世界开源版”,GPT-5要在虚拟世界中进化了?
- 精选推荐
-
元典智库2024-12-31法律助手
-
Noise Eraser2025-02-18提示指令
-
通义千问2025-01-30提示指令
-
Copypage2025-02-19法律助手
-
Content Writer Tools2025-01-30法律助手
-
Guide.AI2025-02-21提示指令