ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
2025-04-21 12:50:29 小编:六六导航站
ACTalker是什么
ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制,如音频、表情等。核心架构包括并行 Mamba 结构,通过多个分支利用不同驱动信号分别控制面部区域,基于门控机制和掩码丢弃策略,实现灵活且自然的视频生成。在 CelebV-HQ 数据集上,ACTalker 的 Sync-C 和 Sync-D 分数表现优异,分别为 5.317 和 7.869,FVD-Inc 分数为 232.374,展现了良好的音频同步和视频质量。

ACTalker的主要功能
多信号控制与单信号控制:ACTalker 支持多信号控制和单信号控制,能用音频、表情等多种信号来驱动说话人头部视频的生成。自然协调的视频生成:通过 Mamba 结构,使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记,确保受控视频在时间和空间上的自然协调。高质量的视频生成:实验结果表明,ACTalker 能生成自然、逼真的面部视频,在多信号控制下,Mamba 层能无缝整合多种驱动模态,无冲突地生成视频。ACTalker的技术原理
并行 Mamba 结构:ACTalker 采用并行 Mamba 结构,包含多个分支,每个分支利用单独的驱动信号(如音频、表情等)来控制特定的面部区域。使不同模态的信号可以同时作用于视频生成过程,互不干扰,实现多信号控制。门控机制:在所有分支中应用了门控机制,在训练时随机开启或关闭,在推理时可以根据需要手动调整。门控机制为视频生成提供了灵活的控制方式,支持在不同情况下选择使用单一信号或多种信号进行驱动。掩码丢弃策略(Mask-Drop):ACTalker 引入了掩码丢弃策略,支持每个驱动信号独立控制其对应的面部区域。在训练过程中,策略通过随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,提高生成内容的质量,防止控制冲突。状态空间建模(SSM):为了确保受控视频在时间和空间上的自然协调,ACTalker 采用了状态空间建模(SSM)。模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记,实现自然的面部动作协调。视频扩散模型基础:ACTalker 基于视频扩散模型进行构建,在去噪过程中引入多分支控制模块。每个 Mamba 分支处理特定模态信号,通过门控机制动态调整各模态影响权重。ACTalker的项目地址
项目官网:https://harlanhong.github.io/publications/actalkerGithub仓库:https://github.com/harlanhong/ACTalkerHuggingFace模型库:https://huggingface.co/papers/2504.02542arXiv技术论文:https://arxiv.org/pdf/2504.02542ACTalker的应用场景
虚拟主播:ACTalker 可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动,提升观众的观看体验。远程会议:在远程会议中,ACTalker 可以用音频信号和参会者的表情信号生成自然的说话头视频。可以解决网络延迟导致的口型与声音不同步问题,能让参会者在视频信号不佳时,通过音频和表情信号生成自然的面部视频,增强远程交流的真实感。在线教育:在线教育场景中,教师可以用 ACTalker 生成自然的说话头视频,通过音频和表情信号的控制,使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。娱乐与游戏:在娱乐和游戏领域,ACTalker 可以为角色生成自然的说话头视频,增强角色的表现力和代入感。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架
- SkyReels-A2 – 昆仑万维推出的可控视频生成框架
- Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
- ChildMandarin – 智源联合南开开源的低幼儿童中文语音数据集
- MagicColor – 香港科技大学推出的多实例线稿图着色框架
- Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型
- 大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
- SeniorTalk – 智源联合南开开源的超高龄老年人中文对话语音数据集
- HiDream-I1 – 智象未来开源的文生图模型
- MEET2020 | 百度景鲲:AI交互正在吃掉旧产品边界,触达移动互联网盲区用户
- 精选推荐
-
元典智库2024-12-31法律助手
-
WiziShop2025-02-02法律助手
-
Endel2025-02-25提示指令
-
Voice.ai2025-02-14提示指令
-
Awesome ChatGPT Prompts2025-01-02提示指令
-
Co-Writer AI2025-02-12法律助手