EchoMimic 多模态大模型驱动下的生成式数字人技术与应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 李宇明
2. • • 传统数字人技术介绍 生成式数字人技术介绍 • • 技术细节与亮点 实验结果分析 • • • 生成式数字人结合大语言模型的实时交互 生成式数字人结合音乐生成模型的AI创作 生成式数字人结合商品的视频广告 • • 生成式数字人存在的问题和挑战 生成式数字人开发新范式
3.
4.
5. 方法 • • 基于GAN的算法。通过对抗训练学习,对人物图像的嘴部进行精 准编辑,确保嘴型与输入的语音同步,实现数字人语音播报。 基于NeRF的算法。通过构建神经辐射场对数字人进行个性化建 模,提升嘴型生成的自然度、匹配度和语音播报个性化水平。 优势 • • 制作成本低,技术路线短平快。 在特定场景下能达到可接受的效果。 不足 • • • 优质的2D数字人应用效果依旧依赖于高水准的素材录制。 高质量躯体和手势动作视频生成仍面临挑战。 人物动作和嘴型生成的准确性、自然性和灵活性等方面仍有不足。
6. 方法 • • AI技术在3D数字人领域的应用主要集中在数字人智能建模和数字 人智能驱动两个关键方向。 随着3DMM(三维人脸可形变模型)和可微分渲染技术的不断发 展,现在可以以极低的成本实现3D数字人的建模和驱动。 优势 • • 3D数字人相比2D数字人有着更强的交互能力。 3D美术建模可以带来的更完美的数字人外貌与人设。 不足 • • • 技术链过长,人物建模、动作驱动、渲染展示等每个环节都有着 复杂的技术栈。 智能化低成本的建模方式难以保障数字人建模质量,高质量的3D 数字人建模依然依赖传统美工3D建模方式。 天然不适合需要超高写实人物形象的应用场景。
7. • • 人工智能生成内容(AIGC)技术取得了突破性进展,AI绘画领 域创新应用层出不穷。 AIGC在视频生成方面也取得了显著成就,为生成式数字人领 域带来了崭新的变化。 DreamActor-M1 • • • • 在成本极低的情况下,可以创造出高品质的图像与视频内容。 数字人外貌与人设等展示素材均可以用AIGC生成。 可以利用语音、动作等对数字人进行相关控制。 算法效果天花板比较高。 • • • 相关技术相对比较新、可参考的优秀工作不多。 算法推理成本和时间还比较高。 基于语音驱动的半身和全身数字人还没有成熟工作。 2025 HumanDiT StableAnimator MoCha Omni-Human EMO2
8. AnimateAnyone (Vision) 2023.11 阿里 未开源 EMO (Audio) 2024.02 阿里 未开源 CyberHost (Audio+Vision) 2024.09 字节 未开源 HumanDiT (Vision) 2025.02 字节 未开源 OmniHuman (Audio) 2025.02 字节 未开源 MimicMotion (Vision) 2024.06 腾讯 开源 EchoMimicV2 (Audio+Vision) 2024.11 蚂蚁 开源 MoCha (Audio) 2025.03 Meta 未开源 EchoMimicV1 (Audio+Vision) 2024.07 蚂蚁 开源 EMO2 (Audio) 2025.01 阿里 未开源 DreamActor-M1 (Vision) 2025.04 字节 未开源
9.
10. • EchoMimic是专注于增强2D数字人物驱动效能的算法,用户仅需上传一 张数字人或真实人物的图片及一段语音或视频资料,即可生成与之匹配 的说话场景视频。 • 该技术在表现效果上接近当前市场上的商业解决方案,且在驱动模式上 展现出高度灵活性,支持语音、姿态或二者的组合驱动,为用户带来灵 活的定制化体验。 • 项目开源地址: • V1版本:https://github.com/antgroup/echomimic • V2版本:https://github.com/antgroup/echomimic_v2
11. Audio Pose Audio+Pose
12. 开源版本(预定义手部Pose) 内部版本(Audio2Pose自动生成)
13. • • 利用步数蒸馏算法,对EchoMimic训练框架进行改造。 以原来的模型作为Teacher,将40步的Teacher模型分成4段,每一段由 10小段组成。 训练中对每一段生成过程,将10步Teacher的推理用MSC蒸馏为一步,作 为 Student 的拟合目标。 加速后,视频生成耗时在A100 GPU提速约9倍。 原始模型 加速模型 原始模型 加速模型 EchomimicV2加速版与非加速版 在A100 GPU推理耗时对比 700 600 640 564 500 • • 400 451 300 200 100 71 62 50 0 149 133 生成视频帧数 非加速版--30步 加速版本--6 步 105
14. 对比实验结果 第三方评测结果
15. 与Pose驱动算法对比实验结果 与Audio驱动算法对比实验结果
16.
17. 实时交互 生成式数字人+多模态大模型 AI创作 生成式数字人+音乐生成大模型 视频广告 商品交互数字人垂类模型
18.
19. • 保真度差。手部、牙齿、面部细节。 • 一致性差。ID变化、背景不协调、衣物细节变化。 • 动作不自然。动作与语音、图像细节不一致。 • 分辨率低。高清生成、快速生成仍有困难。
20. SD双塔架构 SVD单塔架构 视频生成I2V基模+组件 AnimateAnyone, EMOV1/V2, EchoMimicV1/V2 MimicMotion, Sonic, StableAnimator Omni-Human (Seaweed+), Hunyuan+, Wan2.1+, Goku+
21.
22.

- 위키
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:21
浙ICP备14020137号-1 $방문자$