EchoMimic 多模态大模型驱动下的生成式数字人技术与应用

1. 李宇明

2. • • 传统数字人技术介绍生成式数字人技术介绍 • • 技术细节与亮点实验结果分析 • • • 生成式数字人结合大语言模型的实时交互生成式数字人结合音乐生成模型的AI创作生成式数字人结合商品的视频广告 • • 生成式数字人存在的问题和挑战生成式数字人开发新范式

3.

4.

5. 方法 • • 基于GAN的算法。通过对抗训练学习，对人物图像的嘴部进行精准编辑，确保嘴型与输入的语音同步，实现数字人语音播报。基于NeRF的算法。通过构建神经辐射场对数字人进行个性化建模，提升嘴型生成的自然度、匹配度和语音播报个性化水平。优势 • • 制作成本低，技术路线短平快。在特定场景下能达到可接受的效果。不足 • • • 优质的2D数字人应用效果依旧依赖于高水准的素材录制。高质量躯体和手势动作视频生成仍面临挑战。人物动作和嘴型生成的准确性、自然性和灵活性等方面仍有不足。

6. 方法 • • AI技术在3D数字人领域的应用主要集中在数字人智能建模和数字人智能驱动两个关键方向。随着3DMM（三维人脸可形变模型）和可微分渲染技术的不断发展，现在可以以极低的成本实现3D数字人的建模和驱动。优势 • • 3D数字人相比2D数字人有着更强的交互能力。 3D美术建模可以带来的更完美的数字人外貌与人设。不足 • • • 技术链过长，人物建模、动作驱动、渲染展示等每个环节都有着复杂的技术栈。智能化低成本的建模方式难以保障数字人建模质量，高质量的3D 数字人建模依然依赖传统美工3D建模方式。天然不适合需要超高写实人物形象的应用场景。

7. • • 人工智能生成内容（AIGC）技术取得了突破性进展，AI绘画领域创新应用层出不穷。 AIGC在视频生成方面也取得了显著成就，为生成式数字人领域带来了崭新的变化。 DreamActor-M1 • • • • 在成本极低的情况下，可以创造出高品质的图像与视频内容。数字人外貌与人设等展示素材均可以用AIGC生成。可以利用语音、动作等对数字人进行相关控制。算法效果天花板比较高。 • • • 相关技术相对比较新、可参考的优秀工作不多。算法推理成本和时间还比较高。基于语音驱动的半身和全身数字人还没有成熟工作。 2025 HumanDiT StableAnimator MoCha Omni-Human EMO2

8. AnimateAnyone (Vision) 2023.11 阿里未开源 EMO (Audio) 2024.02 阿里未开源 CyberHost (Audio+Vision) 2024.09 字节未开源 HumanDiT (Vision) 2025.02 字节未开源 OmniHuman (Audio) 2025.02 字节未开源 MimicMotion (Vision) 2024.06 腾讯开源 EchoMimicV2 (Audio+Vision) 2024.11 蚂蚁开源 MoCha (Audio) 2025.03 Meta 未开源 EchoMimicV1 (Audio+Vision) 2024.07 蚂蚁开源 EMO2 (Audio) 2025.01 阿里未开源 DreamActor-M1 (Vision) 2025.04 字节未开源

9.

10. • EchoMimic是专注于增强2D数字人物驱动效能的算法，用户仅需上传一张数字人或真实人物的图片及一段语音或视频资料，即可生成与之匹配的说话场景视频。 • 该技术在表现效果上接近当前市场上的商业解决方案，且在驱动模式上展现出高度灵活性，支持语音、姿态或二者的组合驱动，为用户带来灵活的定制化体验。 • 项目开源地址： • V1版本：https://github.com/antgroup/echomimic • V2版本：https://github.com/antgroup/echomimic_v2

11. Audio Pose Audio+Pose

12. 开源版本（预定义手部Pose）内部版本（Audio2Pose自动生成）

13. • • 利用步数蒸馏算法，对EchoMimic训练框架进行改造。以原来的模型作为Teacher，将40步的Teacher模型分成4段，每一段由 10小段组成。训练中对每一段生成过程，将10步Teacher的推理用MSC蒸馏为一步，作为 Student 的拟合目标。加速后，视频生成耗时在A100 GPU提速约9倍。原始模型加速模型原始模型加速模型 EchomimicV2加速版与非加速版在A100 GPU推理耗时对比 700 600 640 564 500 • • 400 451 300 200 100 71 62 50 0 149 133 生成视频帧数非加速版--30步加速版本--6 步 105

14. 对比实验结果第三方评测结果

15. 与Pose驱动算法对比实验结果与Audio驱动算法对比实验结果

16.

17. 实时交互生成式数字人+多模态大模型 AI创作生成式数字人+音乐生成大模型视频广告商品交互数字人垂类模型

18.

19. • 保真度差。手部、牙齿、面部细节。 • 一致性差。ID变化、背景不协调、衣物细节变化。 • 动作不自然。动作与语音、图像细节不一致。 • 分辨率低。高清生成、快速生成仍有困难。

20. SD双塔架构 SVD单塔架构视频生成I2V基模+组件 AnimateAnyone, EMOV1/V2, EchoMimicV1/V2 MimicMotion, Sonic, StableAnimator Omni-Human (Seaweed+), Hunyuan+, Wan2.1+, Goku+

21.

22.