EMO – 阿里推出的AI肖像视频生成框架
2025-05-09 13:45:10 小编:六六导航站
EMO是什么
EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。该系统能够捕捉到人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。

EMO的官网入口
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/arXiv研究论文:https://arxiv.org/abs/2402.17485GitHub:https://github.com/HumanAIGC/EMO(模型和源码待开源)
EMO的主要特点
音频驱动的视频生成:EMO能够根据输入的音频(如说话或唱歌)直接生成视频,无需依赖于预先录制的视频片段或3D面部模型。高表现力和逼真度:EMO生成的视频具有高度的表现力,能够捕捉并再现人类面部表情的细微差别,包括微妙的微表情,以及与音频节奏相匹配的头部运动。无缝帧过渡:EMO确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。身份保持:通过FrameEncoding模块,EMO能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。稳定的控制机制:EMO采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。灵活的视频时长:EMO可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。跨语言和跨风格:EMO的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和3D风格,这使得EMO能够适应不同的文化和艺术风格。EMO的工作原理

- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- EMO – 阿里推出的AI肖像视频生成框架
- StarCoder 2 – BigCode推出的第二代开源代码大模型
- MeloTTS – MyShell AI推出的多语言文本到语音转换工具
- Snap Video – Snapchat公司推出的AI视频生成模型
- LayerDiffusion – AI生成具有透明度的图像的框架
- TextDiffuser-2 – 微软等推出的AI图像文本渲染融合框架
- UniEdit – 免训练调优的统一视频编辑框架
- DUSt3R – 从任意图像集合中重建3D场景的框架
- ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表
- ResAdapter – 字节推出的扩散模型分辨率适配器
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
ChatMindAI2025-01-27提示指令
-
Epagestore.ai2025-02-05法律助手