阿里小蜜数字人互动决策的探索与落地
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里小蜜数字人互动决策的探索与落地
祖新星
达摩院算法专家
2021年12月
2. 个人介绍
u 祖新星(花名:贤人),平安科技机器人技术研究员,达摩院算法专家
u 研究方向:自然语言处理、虚拟人互动、情感计算、多模态算法
u 阿里小蜜机器阅读、数字人行为决策、数字人公益(NLP)、数字人多模态算法库等项目的算法负责人
3. Ø 阿里小蜜数字人发展史
Ø 如何从零构建一个数字人产品
Contents
Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力
Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力
Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK
Ø 总结
4. 二次元数字人新时代
[介绍版]智能直播间及数字造星产品.pdf
5. 阿里小蜜数字人发展史
• 2019-大屏数字人:小蜜数字人的前生,赋予了阿里小蜜首个数字人形象,服务于新加坡地铁站
• 2019-女娲平台:小蜜数字人3D平台,让小蜜数字人有了多个形象,开始具备服务多个品牌的能力
• 2020-虚拟主播:小蜜数字人首个大规模应用,每日服务于数百个直播间
• 2020-虚拟辅播:小蜜数字人在直播间为顾客提供快捷入口与答疑服务
• 2020-直播吖:主打真人复刻、真人-虚拟人同框,为商家带来一场跨次元的直播
• 2021-IP多样屋:为数字人打造的IP平台
• 2021-数字人公益:以数字人技术为基础,持续关注并服务残障等弱势群体,在云栖大会上推出了双向手语翻译
产品
• 2021-云上数字人:将数字人技术在阿里云上输出,服务更多大中小企业,目前已完成多个项目交付
6. 如何从零构建一个数字人产品
诞生
掌握身体
了解环境
自主意识
• 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播
• 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播
• 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动 文本/语音/动作 •
的情感化生成
•
智能行为决策
•
•
融会贯通
上岗工作
•
直播吖
虚拟云客服
数字人公益
•
数字人算法库MMTK
7. 如何从零构建一个数字人产品
诞生
掌握身体
了解环境
自主意识
• 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播
• 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播
• 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动 文本/语音/动作 •
的情感化生成
•
智能行为决策
•
•
融会贯通
上岗工作
•
直播吖
虚拟云客服
数字人公益
•
数字人算法库MMTK
8. 如何从零构建一个数字人产品
诞生
掌握身体
了解环境
自主意识
• 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播
• 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播
• 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动 文本/语音/动作 •
的情感化生成
•
智能行为决策
•
•
•
直播吖
虚拟云客服
数字人公益
• 数字人对拟人化表达能力有更高有要求
• 数字人行为要具有智能性、多样性
• 缺少数字人算法完整解决方案
融会贯通
上岗工作
•
数字人算法库MMTK
9. Ø 阿里小蜜数字人发展史
Ø 如何从零构建一个数字人产品
Contents
Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力
Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力
Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK
Ø 总结
10. 数字人个性化情感分析
•
文本情感分析(词级别):愤怒、厌恶、轻蔑、恐惧、惊讶、快乐、悲伤
我们再来说一下适合的人群,这一点对于咱家的这款短外套也是非常重要的,学生气系十足,彰显日韩范儿
快乐
•
快乐
惊讶
快乐
存在的问题
• 情感属于心理学定义,不能完全涵盖业务中的所有场景
• 离散情绪表达力有限,特别在数字人场景中,无法表现情感的过渡
• 所有数字人的情感固定,表现单一
将情感与意图结合
将情感连续化
性格调节
快乐
11. 数字人个性化情感分析
情感连续可计算
诱发、积累、爆发、平复
情感可参数调节
12. 数字人文本表现力-StyleTransfer
• Text Style Transfer
• 基于信息抽取+Data2Text的文本风格转换
信息抽取+Data2Text整体方案
风格掩码预测与控制生成
风格化同义词替换与改写
13. 数字人声音表现力-风格化TTS
•
•
数字人对TTS能力的新要求
• 声音要能表达丰富的情感
• 在不同上下文中,声音要能灵活进行控制
改进后的方案
14. 数字人动作表现力-Text2Action
• 数字人驱动方案
• Text2Action
Virtual Character Generation and Animation system for e-commerce live streaming. ACM MM. 2021.
15. Ø 阿里小蜜数字人发展史
Ø 如何从零构建一个数字人产品
Contents
Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力
Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力
Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK
Ø 总结
16. 数字人可控性剧本生产
AliMe MKG: a Multi-modal Knowledge Graph for Live-streaming
E-commerce, CIKM. 2021
素材获取
顺序组织
内容衔接
内容顺畅
无序->有序
词语->句子
多个短句
⌄ |
一个长句
风格改写
Lin X, Cui S, Zhao Z, et al. GGP: A Graph-based Grouping Planner for Explicit Control of Long Text Generation. CIKM. 2021.
17. 数字人多模态问答
• 文本->图像
• 文本->图像->视频->多模态
18. 数字人短视频
19. 数字人感知-双向手语翻译
• 双向手语翻译
• 手语识别方案
20. 数字人智能行为决策
多模态数据理解
行为树
在线行为决策方案
多模态行为表达
强化学习
21. Ø 阿里小蜜数字人发展史
Ø 如何从零构建一个数字人产品
Contents
Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力
Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力
Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK
Ø 总结
22. 数字人多模态代码库-MMTK
MMBert 多模态语言模型
模型
切图合并准确率
MMTK 多模态算法库
图文排序Top1准确率
图片检索召回
单模态预训练 74.3% 70.5% 56.2%
跨模态预训练 79.1% 86.4% 93.1%
• 分层及可插拔架构,多种模型开箱即用
• 支持阿里数字人10+算法项目
• 简化模型试验流程,在多个数据集上达到sota效果
• 相关顶会论文近十篇
Cui, Yuhao, et al. ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross-and Intra-modal Knowledge Integration.
23. 总结 展望
Ø 总结
• 介绍了数字人新时代具有的大规模商业潜力,以及我们近2年在数字人产品上的布局
• 从数字人诞生、模型驱动、环境感知与理解、自主行为驱动、落地场景、基础算法库等方面,介绍了阿里数字人从零开始
的构建过程
• 介绍了个性化情感分析方法、以及在此基础上的文本/声音/动作增强方案,以次提升数字人的表现力
• 从可控性直播剧本生产、多模态问答、双向手语翻译、智能行为决策等几个方面,讲解了如何提升数字人的互动能力
• 简单介绍了我们团队为数字人产品化搭建的多模态算法库-MMTK
Ø 展望
• 更加拟人化、更丰富的情感化表达
• 更智能的互动能力
24. THANKS