EchoMimic 多模态大模型驱动下的生成式数字人技术与应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 李宇明
2. •
• 传统数字人技术介绍
生成式数字人技术介绍
•
• 技术细节与亮点
实验结果分析
•
•
• 生成式数字人结合大语言模型的实时交互
生成式数字人结合音乐生成模型的AI创作
生成式数字人结合商品的视频广告
•
• 生成式数字人存在的问题和挑战
生成式数字人开发新范式
3.
4.
5. 方法
•
•
基于GAN的算法。通过对抗训练学习,对人物图像的嘴部进行精
准编辑,确保嘴型与输入的语音同步,实现数字人语音播报。
基于NeRF的算法。通过构建神经辐射场对数字人进行个性化建
模,提升嘴型生成的自然度、匹配度和语音播报个性化水平。
优势
•
•
制作成本低,技术路线短平快。
在特定场景下能达到可接受的效果。
不足
•
•
•
优质的2D数字人应用效果依旧依赖于高水准的素材录制。
高质量躯体和手势动作视频生成仍面临挑战。
人物动作和嘴型生成的准确性、自然性和灵活性等方面仍有不足。
6. 方法
•
•
AI技术在3D数字人领域的应用主要集中在数字人智能建模和数字
人智能驱动两个关键方向。
随着3DMM(三维人脸可形变模型)和可微分渲染技术的不断发
展,现在可以以极低的成本实现3D数字人的建模和驱动。
优势
•
•
3D数字人相比2D数字人有着更强的交互能力。
3D美术建模可以带来的更完美的数字人外貌与人设。
不足
•
•
•
技术链过长,人物建模、动作驱动、渲染展示等每个环节都有着
复杂的技术栈。
智能化低成本的建模方式难以保障数字人建模质量,高质量的3D
数字人建模依然依赖传统美工3D建模方式。
天然不适合需要超高写实人物形象的应用场景。
7. •
•
人工智能生成内容(AIGC)技术取得了突破性进展,AI绘画领
域创新应用层出不穷。
AIGC在视频生成方面也取得了显著成就,为生成式数字人领
域带来了崭新的变化。
DreamActor-M1
•
•
•
• 在成本极低的情况下,可以创造出高品质的图像与视频内容。
数字人外貌与人设等展示素材均可以用AIGC生成。
可以利用语音、动作等对数字人进行相关控制。
算法效果天花板比较高。
•
•
• 相关技术相对比较新、可参考的优秀工作不多。
算法推理成本和时间还比较高。
基于语音驱动的半身和全身数字人还没有成熟工作。
2025
HumanDiT
StableAnimator
MoCha
Omni-Human
EMO2
8. AnimateAnyone (Vision)
2023.11 阿里 未开源
EMO (Audio)
2024.02 阿里 未开源
CyberHost (Audio+Vision)
2024.09 字节 未开源
HumanDiT (Vision)
2025.02 字节 未开源
OmniHuman (Audio)
2025.02 字节 未开源
MimicMotion (Vision)
2024.06 腾讯 开源
EchoMimicV2 (Audio+Vision)
2024.11 蚂蚁 开源
MoCha (Audio)
2025.03 Meta 未开源
EchoMimicV1 (Audio+Vision)
2024.07 蚂蚁 开源
EMO2 (Audio)
2025.01 阿里 未开源
DreamActor-M1 (Vision)
2025.04 字节 未开源
9.
10. • EchoMimic是专注于增强2D数字人物驱动效能的算法,用户仅需上传一
张数字人或真实人物的图片及一段语音或视频资料,即可生成与之匹配
的说话场景视频。
• 该技术在表现效果上接近当前市场上的商业解决方案,且在驱动模式上
展现出高度灵活性,支持语音、姿态或二者的组合驱动,为用户带来灵
活的定制化体验。
• 项目开源地址:
• V1版本:https://github.com/antgroup/echomimic
• V2版本:https://github.com/antgroup/echomimic_v2
11. Audio
Pose
Audio+Pose
12. 开源版本(预定义手部Pose)
内部版本(Audio2Pose自动生成)
13. •
•
利用步数蒸馏算法,对EchoMimic训练框架进行改造。
以原来的模型作为Teacher,将40步的Teacher模型分成4段,每一段由
10小段组成。
训练中对每一段生成过程,将10步Teacher的推理用MSC蒸馏为一步,作
为 Student 的拟合目标。
加速后,视频生成耗时在A100 GPU提速约9倍。
原始模型
加速模型
原始模型
加速模型
EchomimicV2加速版与非加速版
在A100 GPU推理耗时对比
700
600
640
564
500
•
•
400
451
300
200
100
71
62
50
0
149
133
生成视频帧数
非加速版--30步
加速版本--6 步
105
14. 对比实验结果
第三方评测结果
15. 与Pose驱动算法对比实验结果
与Audio驱动算法对比实验结果
16.
17. 实时交互
生成式数字人+多模态大模型
AI创作
生成式数字人+音乐生成大模型
视频广告
商品交互数字人垂类模型
18.
19. • 保真度差。手部、牙齿、面部细节。
• 一致性差。ID变化、背景不协调、衣物细节变化。
• 动作不自然。动作与语音、图像细节不一致。
• 分辨率低。高清生成、快速生成仍有困难。
20. SD双塔架构 SVD单塔架构 视频生成I2V基模+组件
AnimateAnyone, EMOV1/V2, EchoMimicV1/V2 MimicMotion, Sonic, StableAnimator Omni-Human (Seaweed+), Hunyuan+, Wan2.1+, Goku+
21.
22.