阿里小蜜数字人互动决策的探索与落地

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里小蜜数字人互动决策的探索与落地 祖新星 达摩院算法专家 2021年12月
2. 个人介绍 u 祖新星(花名:贤人),平安科技机器人技术研究员,达摩院算法专家 u 研究方向:自然语言处理、虚拟人互动、情感计算、多模态算法 u 阿里小蜜机器阅读、数字人行为决策、数字人公益(NLP)、数字人多模态算法库等项目的算法负责人
3. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK Ø 总结
4. 二次元数字人新时代 [介绍版]智能直播间及数字造星产品.pdf
5. 阿里小蜜数字人发展史 • 2019-大屏数字人:小蜜数字人的前生,赋予了阿里小蜜首个数字人形象,服务于新加坡地铁站 • 2019-女娲平台:小蜜数字人3D平台,让小蜜数字人有了多个形象,开始具备服务多个品牌的能力 • 2020-虚拟主播:小蜜数字人首个大规模应用,每日服务于数百个直播间 • 2020-虚拟辅播:小蜜数字人在直播间为顾客提供快捷入口与答疑服务 • 2020-直播吖:主打真人复刻、真人-虚拟人同框,为商家带来一场跨次元的直播 • 2021-IP多样屋:为数字人打造的IP平台 • 2021-数字人公益:以数字人技术为基础,持续关注并服务残障等弱势群体,在云栖大会上推出了双向手语翻译 产品 • 2021-云上数字人:将数字人技术在阿里云上输出,服务更多大中小企业,目前已完成多个项目交付
6. 如何从零构建一个数字人产品 诞生 掌握身体 了解环境 自主意识 • 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播 • 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播 • 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动 文本/语音/动作 • 的情感化生成 • 智能行为决策 • • 融会贯通 上岗工作 • 直播吖 虚拟云客服 数字人公益 • 数字人算法库MMTK
7. 如何从零构建一个数字人产品 诞生 掌握身体 了解环境 自主意识 • 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播 • 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播 • 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动 文本/语音/动作 • 的情感化生成 • 智能行为决策 • • 融会贯通 上岗工作 • 直播吖 虚拟云客服 数字人公益 • 数字人算法库MMTK
8. 如何从零构建一个数字人产品 诞生 掌握身体 了解环境 自主意识 • 女娲平台 • TTS • 文本理解 • 个性化情感 • 虚拟主播 • 多样屋IP • 嘴形驱动 • 视觉理解 • 虚拟辅播 • 实时渲染 • 面部表情驱动 • 多模态理解 • 肢体动作驱动 文本/语音/动作 • 的情感化生成 • 智能行为决策 • • • 直播吖 虚拟云客服 数字人公益 • 数字人对拟人化表达能力有更高有要求 • 数字人行为要具有智能性、多样性 • 缺少数字人算法完整解决方案 融会贯通 上岗工作 • 数字人算法库MMTK
9. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK Ø 总结
10. 数字人个性化情感分析 • 文本情感分析(词级别):愤怒、厌恶、轻蔑、恐惧、惊讶、快乐、悲伤 我们再来说一下适合的人群,这一点对于咱家的这款短外套也是非常重要的,学生气系十足,彰显日韩范儿 快乐 • 快乐 惊讶 快乐 存在的问题 • 情感属于心理学定义,不能完全涵盖业务中的所有场景 • 离散情绪表达力有限,特别在数字人场景中,无法表现情感的过渡 • 所有数字人的情感固定,表现单一 将情感与意图结合 将情感连续化 性格调节 快乐
11. 数字人个性化情感分析 情感连续可计算 诱发、积累、爆发、平复 情感可参数调节
12. 数字人文本表现力-StyleTransfer • Text Style Transfer • 基于信息抽取+Data2Text的文本风格转换 信息抽取+Data2Text整体方案 风格掩码预测与控制生成 风格化同义词替换与改写
13. 数字人声音表现力-风格化TTS • • 数字人对TTS能力的新要求 • 声音要能表达丰富的情感 • 在不同上下文中,声音要能灵活进行控制 改进后的方案
14. 数字人动作表现力-Text2Action • 数字人驱动方案 • Text2Action Virtual Character Generation and Animation system for e-commerce live streaming. ACM MM. 2021.
15. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK Ø 总结
16. 数字人可控性剧本生产 AliMe MKG: a Multi-modal Knowledge Graph for Live-streaming E-commerce, CIKM. 2021 素材获取 顺序组织 内容衔接 内容顺畅 无序->有序 词语->句子 多个短句 ⌄ | 一个长句 风格改写 Lin X, Cui S, Zhao Z, et al. GGP: A Graph-based Grouping Planner for Explicit Control of Long Text Generation. CIKM. 2021.
17. 数字人多模态问答 • 文本->图像 • 文本->图像->视频->多模态
18. 数字人短视频
19. 数字人感知-双向手语翻译 • 双向手语翻译 • 手语识别方案
20. 数字人智能行为决策 多模态数据理解 行为树 在线行为决策方案 多模态行为表达 强化学习
21. Ø 阿里小蜜数字人发展史 Ø 如何从零构建一个数字人产品 Contents Ø 清水出芙蓉,天然去雕饰 —— 如何提升数字人表现力 Ø 海内存知己,天涯若比邻 —— 如何提升数字人互动能力 Ø 工欲善其事,必先利其器 —— 数字人多模态算法库-MMTK Ø 总结
22. 数字人多模态代码库-MMTK MMBert 多模态语言模型 模型 切图合并准确率 MMTK 多模态算法库 图文排序Top1准确率 图片检索召回 单模态预训练 74.3% 70.5% 56.2% 跨模态预训练 79.1% 86.4% 93.1% • 分层及可插拔架构,多种模型开箱即用 • 支持阿里数字人10+算法项目 • 简化模型试验流程,在多个数据集上达到sota效果 • 相关顶会论文近十篇 Cui, Yuhao, et al. ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross-and Intra-modal Knowledge Integration.
23. 总结 展望 Ø 总结 • 介绍了数字人新时代具有的大规模商业潜力,以及我们近2年在数字人产品上的布局 • 从数字人诞生、模型驱动、环境感知与理解、自主行为驱动、落地场景、基础算法库等方面,介绍了阿里数字人从零开始 的构建过程 • 介绍了个性化情感分析方法、以及在此基础上的文本/声音/动作增强方案,以次提升数字人的表现力 • 从可控性直播剧本生产、多模态问答、双向手语翻译、智能行为决策等几个方面,讲解了如何提升数字人的互动能力 • 简单介绍了我们团队为数字人产品化搭建的多模态算法库-MMTK Ø 展望 • 更加拟人化、更丰富的情感化表达 • 更智能的互动能力
24. THANKS

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 09:23
浙ICP备14020137号-1 $Map of visitor$