KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架
2025-05-13 16:43:17 小编:六六导航站
KeySync是什么
KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关键帧捕捉音频的关键唇部动作,基于插值生成平滑的过渡帧。KeySync 引入新的掩码策略,有效减少输入视频的表情泄露,用视频分割模型自动处理遮挡问题。KeySync 在视觉质量、时间连贯性和唇部同步准确性方面均优于现有方法,适用于自动配音等实际应用。

KeySync的主要功能
高分辨率口型同步:生成与输入音频精确对齐的高清(512×512)视频,适用于实际应用。减少表情泄露:减少输入视频中的表情泄露,提升同步效果。遮挡处理:在推理时自动识别、排除遮挡物(如手部、物体等),确保生成视频的自然性。提升视觉质量:在多个量化指标和用户研究中表现出色,生成的视频具有更高的清晰度和连贯性。KeySync的技术原理
两阶段生成框架:关键帧生成:首先生成一组稀疏的关键帧,捕捉音频中的主要唇部动作,确保每个关键帧准确反映音频的语音内容,同时保留人物身份信息。插值生成:在关键帧之间进行插值,生成平滑、时间连贯的中间帧,实现流畅的唇部动作过渡。潜扩散模型:潜扩散模型在压缩的低维潜空间中进行去噪操作,提高计算效率。逐步去除噪声,将随机噪声逐步转化为结构化的视频数据。掩码策略:基于计算面部关键点,设计覆盖下脸区域的掩码,同时保留必要的上下文信息,防止表情泄露。在推理时,结合预训练的视频分割模型(如 SAM²),自动识别、排除遮挡物,确保生成的唇部区域与遮挡物自然融合。音频与视频对齐:用 HuBERT 音频编码器将原始音频转换为特征表示,基于注意力机制将其嵌入到视频生成模型中,确保生成的唇部动作与音频精确对齐。损失函数:结合潜空间损失和像素空间损失(L2 损失),优化视频生成质量,确保生成的唇部区域与音频对齐。KeySync的项目地址
项目官网:https://antonibigata.github.io/KeySync/GitHub仓库:https://github.com/antonibigata/keysyncHuggingFace模型库:https://huggingface.co/toninio19/keysyncarXiv技术论文:https://arxiv.org/pdf/2505.00497在线体验Demo:https://huggingface.co/spaces/toninio19/keysync-demoKeySync的应用场景
自动配音:用于影视、广告等多语言内容制作,提升配音与唇部动作的对齐效果。虚拟形象:生成虚拟角色的同步唇部动作,增强虚拟形象的真实感。视频会议:优化远程通信中的唇部同步,提升用户体验。无障碍内容:帮助听力障碍人群更好地理解视频内容。内容修复:修复或替换视频中的唇部动作,提升内容质量。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架
- Omni Reference – Midjourney V7推出的图像参考功能
- 3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架
- ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
- ReasonIR-8B – Meta AI 推出专为推理密集型检索任务设计的模型
- Voila – 开源端到端语音大模型,实现低延迟语音对话
- kimi-thinking-preview – 月之暗面推出的多模态思考模型
- UniTok – 字节联合港大、华中科技推出的统一视觉分词器
- D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
- NoteLLM – 小红书推出的笔记推荐多模态大模型框架
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
ChatMindAI2025-01-27提示指令
-
Epagestore.ai2025-02-05法律助手