阿里小蜜数字人互动决策的探索与落地

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #阿里巴巴

1. 阿里小蜜数字人互动决策的探索与落地祖新星达摩院算法专家 2021年12月

2. 个人介绍 u 祖新星（花名：贤人），平安科技机器人技术研究员，达摩院算法专家 u 研究方向：自然语言处理、虚拟人互动、情感计算、多模态算法 u 阿里小蜜机器阅读、数字人行为决策、数字人公益(NLP)、数字人多模态算法库等项目的算法负责人

3. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉，天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己，天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事，必先利其器 —— 数字人多模态算法库-MMTK Ø 总结

4. 二次元数字人新时代 [介绍版]智能直播间及数字造星产品.pdf

5. 阿里小蜜数字人发展史 • 2019-大屏数字人：小蜜数字人的前生，赋予了阿里小蜜首个数字人形象，服务于新加坡地铁站 • 2019-女娲平台：小蜜数字人3D平台，让小蜜数字人有了多个形象，开始具备服务多个品牌的能力 • 2020-虚拟主播：小蜜数字人首个大规模应用，每日服务于数百个直播间 • 2020-虚拟辅播：小蜜数字人在直播间为顾客提供快捷入口与答疑服务 • 2020-直播吖：主打真人复刻、真人-虚拟人同框，为商家带来一场跨次元的直播 • 2021-IP多样屋：为数字人打造的IP平台 • 2021-数字人公益：以数字人技术为基础，持续关注并服务残障等弱势群体，在云栖大会上推出了双向手语翻译产品 • 2021-云上数字人：将数字人技术在阿里云上输出，服务更多大中小企业，目前已完成多个项目交付

6. 如何从零构建一个数字人产品诞生掌握身体了解环境自主意识 • 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播 • 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播 • 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动文本/语音/动作 • 的情感化生成 • 智能行为决策 • • 融会贯通上岗工作 • 直播吖虚拟云客服数字人公益 • 数字人算法库MMTK

7. 如何从零构建一个数字人产品诞生掌握身体了解环境自主意识 • 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播 • 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播 • 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动文本/语音/动作 • 的情感化生成 • 智能行为决策 • • 融会贯通上岗工作 • 直播吖虚拟云客服数字人公益 • 数字人算法库MMTK

8. 如何从零构建一个数字人产品诞生掌握身体了解环境自主意识 • 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播 • 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播 • 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动文本/语音/动作 • 的情感化生成 • 智能行为决策 • • • 直播吖虚拟云客服数字人公益 • 数字人对拟人化表达能力有更高有要求 • 数字人行为要具有智能性、多样性 • 缺少数字人算法完整解决方案融会贯通上岗工作 • 数字人算法库MMTK

9. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉，天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己，天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事，必先利其器 —— 数字人多模态算法库-MMTK Ø 总结

10. 数字人个性化情感分析 • 文本情感分析（词级别）：愤怒、厌恶、轻蔑、恐惧、惊讶、快乐、悲伤我们再来说一下适合的人群，这一点对于咱家的这款短外套也是非常重要的，学生气系十足，彰显日韩范儿快乐 • 快乐惊讶快乐存在的问题 • 情感属于心理学定义，不能完全涵盖业务中的所有场景 • 离散情绪表达力有限，特别在数字人场景中，无法表现情感的过渡 • 所有数字人的情感固定，表现单一将情感与意图结合将情感连续化性格调节快乐

11. 数字人个性化情感分析情感连续可计算诱发、积累、爆发、平复情感可参数调节

12. 数字人文本表现力-StyleTransfer • Text Style Transfer • 基于信息抽取+Data2Text的文本风格转换信息抽取+Data2Text整体方案风格掩码预测与控制生成风格化同义词替换与改写

13. 数字人声音表现力-风格化TTS • • 数字人对TTS能力的新要求 • 声音要能表达丰富的情感 • 在不同上下文中，声音要能灵活进行控制改进后的方案

14. 数字人动作表现力-Text2Action • 数字人驱动方案 • Text2Action Virtual Character Generation and Animation system for e-commerce live streaming. ACM MM. 2021.

15. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉，天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己，天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事，必先利其器 —— 数字人多模态算法库-MMTK Ø 总结

16. 数字人可控性剧本生产 AliMe MKG: a Multi-modal Knowledge Graph for Live-streaming E-commerce, CIKM. 2021 素材获取顺序组织内容衔接内容顺畅无序->有序词语->句子多个短句 ⌄ | 一个长句风格改写 Lin X, Cui S, Zhao Z, et al. GGP: A Graph-based Grouping Planner for Explicit Control of Long Text Generation. CIKM. 2021.

17. 数字人多模态问答 • 文本->图像 • 文本->图像->视频->多模态

18. 数字人短视频

19. 数字人感知-双向手语翻译 • 双向手语翻译 • 手语识别方案

20. 数字人智能行为决策多模态数据理解行为树在线行为决策方案多模态行为表达强化学习

21. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉，天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己，天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事，必先利其器 —— 数字人多模态算法库-MMTK Ø 总结

22. 数字人多模态代码库-MMTK MMBert 多模态语言模型模型切图合并准确率 MMTK 多模态算法库图文排序Top1准确率图片检索召回单模态预训练 74.3% 70.5% 56.2% 跨模态预训练 79.1% 86.4% 93.1% • 分层及可插拔架构，多种模型开箱即用 • 支持阿里数字人10+算法项目 • 简化模型试验流程，在多个数据集上达到sota效果 • 相关顶会论文近十篇 Cui, Yuhao, et al. ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross-and Intra-modal Knowledge Integration.

23. 总结展望 Ø 总结 • 介绍了数字人新时代具有的大规模商业潜力，以及我们近2年在数字人产品上的布局 • 从数字人诞生、模型驱动、环境感知与理解、自主行为驱动、落地场景、基础算法库等方面，介绍了阿里数字人从零开始的构建过程 • 介绍了个性化情感分析方法、以及在此基础上的文本/声音/动作增强方案，以次提升数字人的表现力 • 从可控性直播剧本生产、多模态问答、双向手语翻译、智能行为决策等几个方面，讲解了如何提升数字人的互动能力 • 简单介绍了我们团队为数字人产品化搭建的多模态算法库-MMTK Ø 展望 • 更加拟人化、更丰富的情感化表达 • 更智能的互动能力

24. THANKS