FlexiAct – 清华联合腾讯推出的动作迁移模型
2025-05-13 10:32:56 小编:六六导航站
FlexiAct是什么
FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较大或跨域的异构场景中,实现精准的动作适配与外观一致性。模型引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,解决现有方法在布局、视角和骨架结构差异方面的限制,保持身份一致性。FlexiAct在人物和动物的动作迁移上均表现出色,具有广泛的应用前景。

FlexiAct的主要功能
跨主体动作迁移:支持将动作从一个人物迁移到另一个人物,或从人物迁移到动物。保持外观一致性:在迁移动作的同时,确保目标主体的外观(如服装、发型等)与原始目标图像保持一致。灵活的空间结构适配:在参考视频和目标图像在布局、视角和骨架结构上存在差异时,也能实现动作的自然迁移。FlexiAct的技术原理
RefAdapter(空间结构适配器):RefAdapter 是轻量级的图像条件适配器,主要作用是解决参考视频和目标图像之间的空间结构差异问题。在训练过程中随机选择视频帧作为条件图像,最大化空间结构的差异性。让模型能适应不同的姿态、布局和视角,同时保持外观一致性。注入少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现灵活的空间适配,避免传统方法中严格的约束。频率感知动作提取:FAE 是创新的动作提取模块,直接在去噪过程中完成动作提取,不依赖于独立的时空架构。FAE 观察到在去噪的不同时间步中,模型对运动(低频)和外观细节(高频)的关注程度不同,在早期时间步中,模型更关注运动信息;在后期时间步中,模型更关注外观细节。FAE 基于动态调整注意力权重,优先在早期时间步提取运动信息,在后期时间步关注外观细节,实现精准的动作提取和控制。FlexiAct的项目地址
项目官网:https://shiyi-zh0408.github.io/projectpages/FlexiAct/GitHub仓库:https://github.com/shiyi-zh0408/FlexiActHuggingFace模型库:https://huggingface.co/shiyi0408/FlexiActarXiv技术论文:https://arxiv.org/pdf/2505.03730FlexiAct的应用场景
影视制作:快速生成逼真的角色动作,减少拍摄成本。游戏开发:为游戏角色生成多样化动作,提升游戏体验。广告营销:生成虚拟代言人动作,增强广告吸引力。教育培训:生成教学和康复训练动作,辅助学习和恢复。娱乐互动:支持用户创作有趣视频,提升娱乐体验。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- FlexiAct – 清华联合腾讯推出的动作迁移模型
- Klavis AI – 开源MCP集成平台,快速接入生产级MCP服务器
- oli – 开源的终端AI编程助手,支持代码辅助与解释
- Mistral Medium 3 – Mistral AI推出的多模态语言模型
- Open Computer Agent – Hugging Face 推出的免费云端 AI Agent 工具
- Absolute Zero – 清华大学等机构推出的语言模型推理训练方法
- Avatar IV – HeyGen 最新推出的AI数字人模型
- Insert Anything – 浙大联合哈佛大学和南洋理工推出的图像插入框架
- QLIP – 英伟达推出的视觉标记化方法
- ZeroSearch – 阿里通义开源的大模型搜索引擎框架
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令
-
Soundraw2025-02-24提示指令