构建电话场景高拟人度对话能力的探索与实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. T 构建电话场景高拟人度对话能力的探索与实践汪建 2022年5月28日美团平台语音交互部本报告所介绍的工作还包括：刘操、陈见耸等同事的重要贡献，在此表示感谢！

2. 个人介绍美团算法专家 T 负责美团电话机器人的研发工作，包括自然语言理解、全双工交互、对话管理、用户画像等相关技术曾负责领域分发、商品推荐、文本生成等相关工作

3. •电话机器人的需求与挑战 •复杂场景下的语义理解 •构建拟人化的交互能力 •未来规划 T 目录 content

4. 客服机器人回访调研消息通知订单疑问 10 余条热线 32% 流量覆盖率 T 客户投诉意见反馈外呼机器人活动邀约信息咨询电话机器人已成功应用于美团多个业务场景电话机器人的需求与挑战意向嗅探 1000+ 场景 300万+ 日外呼量

5. 电话机器人的需求与挑战美团的电话机器人需求丰富且复杂外卖几亿用户酒店 . . . 数量多活动邀约几万销售百万骑手回访调研几万客服 . . . . . . . . . 百万商家信息咨询百万日通话 T 金融场景多角色多领域多

6. 电话机器人的需求与挑战口语化、双工化是电话机器人独有的特点口语化我不知道这个服务啊，不知道不晓得 • 表述冗余口语化示例： • 一问多答 • 互相打断 T 双工化示例： • 背景噪音 • 表述犹豫双工化这个。。。嗯，他家服务态度不好 • 表述含糊嗯，这个要不要都行吧，我也没啥具体想法

7. 电话机器人的需求与挑战口语化、双工化是电话机器人独有的特点电话机器人口语化与双工化特点实例口语化 T 表达不连续表述犹豫双工化背景音一问多答

8. 业务特点对经典技术架构提出了挑战文本理解对话管理 T 口语化：这个。。。嗯，他家服务态度不好语音识别理解能力、节奏控制能力是电话机器人面临的重大挑战语音合成对话生成电话机器人的需求与挑战如何解决口语化等复杂场景下语义理解问题如何把控机器与用户对话的节奏，提供拟人化的交互能力

9. 文本纠错实时热词文本理解语音识别为应对挑战设计的电话机器人技术架构电话机器人的需求与挑战双工交互 T 对话管理语音合成对话生成

10. •电话机器人的需求与挑战 •复杂场景下的语义理解 •构建拟人化的交互能力 •未来规划 T 目录 content

11. 复杂场景下的语义理解问题与难点千量级的场景问题： • 新模型的迁移成本高 • 通用模型的泛化能力要求高 T 问题： • 意图与实体识别变困难 • 预训练模型难以适配举例： • 用户表述：前几天下的单嘛，我到店里，商家锁门了 • 实际意图：订单用不了 ASR噪声口语化举例： • 用户表述：我在上班 • 真实意图：拒绝--骑手招聘场景在忙--回访调研场景问题： • ASR会传递噪声到NLU 举例： • 正确：我买了一张小猪佩奇的电影票 • 识别：我买了一张小猪倍奇的电影票

12. 复杂场景下的语义理解千量级的场景口语化 ASR噪声问题：提升机器人理解能力的4个技术手段模块：文本理解 T 语音识别手段：细粒度的热词与纠错丰富的外部知识快速的场景迁移高效的优化工具

13. 提升机器人理解能力的4个技术手段语音识别文本纠错 … 通用语言模型复杂场景下的语义理解文本纠错模型声学模型文本理解正则等规则通用分类模型实时热词自定义语言模型热词模型 T 热词提取模型知识库语义匹配模型综合决策 …

14. 复杂场景下的语义理解手段1：提供热词与纠错，改善ASR识别效果用机器话术中的关键词扩充“热词”来源，解决“专业词汇”与冷启动问题 model 用户：昨天的哪个订单？ Embedding ： E =Token Embedding P = Position Embedding G = Grammar Embedding H = Phonic Embedding S = Segment Embedding T 话术仓库子句1 子句1 S 1 S 1 S 1 S 1 S 1 S 2 S 2 S 2 S 2 S 3 S 3 S 3 H 1 H 2 H 3 H 4 H 5 H 6 H 7 H 8 H 9 H 10 H 11 H 12 H 13 G 1 G 1 G 2 G 2 G 2 G 2 G 3 G 3 G 3 G 4 G 4 G 5 G 5 P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 P 13 E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 E 9 E 10 E 11 E 12 E 13 子句1 子句2 子句2 子句2 子句3 子句3 子句3 ASR字准相对提升1pp Transformer Encoder S 1 机器：有顾客反映昨天的订单用不了 ASR 热词：有顾客反映昨天的订单用不了

15. 复杂场景下的语义理解手段1：提供热词与纠错，改善ASR识别效果纠错模型中加入场景、角色、上文等信息，解决“一词多译”等问题纠错：这家店的单价有点儿贵 Transformer Encoder RNN S 1 RNN H 1 lookup ASR字准相对提升1pp lookup S 1 S 1 S 2 S 2 S 3 S 3 H 2 H 3 H 4 H 5 H 6 H 7 T ASR：这家店的担架有点儿贵 model Embedding ： E =Token Embedding P = Position Embedding H = Phonic Embedding S = Shape Embedding P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 0 P 0 P 0 P 0 P 0 lookup E 1 E 2 E 3 E 4 E 5 E 6 E 7 E 8 E 9 E 10 E 11 E 12 RNN 场景 [SEP] 角色 [SEP] [SEP] 关键词

16. 复杂场景下的语义理解手段2：引入外部知识，提升NLU理解能力口语化数据fine-tuning，预训练模型的Embedding层中引入实体信息 model 订单外卖 T 商家小肥羊我的小肥羊，就是那个的订单到哪啦？知识库

17. 复杂场景下的语义理解手段2：引入外部知识，提升NLU理解能力匹配模型中引入句式信息我的订单什么时间到？我的订单还有多久？我的订单什么时间到？我的订单还有多久？ T 骑手到哪了？骑手到哪了？

18. 复杂场景下的语义理解手段2：引入外部知识，提升NLU理解能力分类模型中引入label的语义信息描述为标签静态指定描述抽取法对每个标签，从输入中抽取一段文字作为描述生成法为每个标签生成一段描述 T 模版法类型 DSMRC-S STATIC GPT2

19. 复杂场景下的语义理解手段3：通过场景迁移，快速搭建NLU模型 T 知识保留网络的终身学习，快速适配新领域的同时，更好地保留旧领域学到的知识 Domain-Lifelong Learning for Dialogue State Tracking via Knowledge Preservation Networks, EMNLP2021

20. 复杂场景下的语义理解手段4：利用优化工具，高效迭代NLU效果低成本的模型迭代与迁移工具，自动化的实现模型的优化与验证模型选择模型数据部署筛选效果人工评估标注 T 重复工作多：标注与训练缺少自动化流程标注效率低：标注样本的筛选缺少针对性 • • 模型优化的问题自动化配置化可视化模型训练

21. 复杂场景下的语义理解手段4：利用优化工具，高效迭代NLU效果 loss p T pooling Bert Bert 用户 HDBSCAN q pooling [CLS] 表 DCSS 便捷的意图发现与编辑工具，实时的创建新意图和添加相似问述 [SEP] [CLS] 用户表述 [SEP] 类簇数量降低120%+，纯度基本不变

22. 复杂场景下的语义理解小结通过细粒度化热词与纠错算法辅助语音识别 ASR 通用语言模型文本纠错模型引入实体、句式和label信息协助文本理解基于知识保留网络的终身学习算法进行场景迁移 NLU CORRECTION … 正则等规则声学模型通用分类模型自定义语言模型 HOTWORDS 热词模型热词提取模型语义匹配模型 T 利用人机回路与意图发现开展高效迭代 ASR字准提升 2pp NLU识别准确率提升 6pp 知识库场景迁移速度提升 40%+ 模型优化效率提升 100%+ 综合决策 …

23. •电话机器人的需求与挑战 •复杂场景下的语义理解 •构建拟人化的交互能力 •未来规划 T 目录 content

24. 构建拟人化的交互能力用户可能持续表达、持续沉默干扰音会干扰机器做决策问题与难点问题： • 容易造成机器抢话 • 容易造成尴尬性沉默，浪费线路资源 T 问题： • 容易造成机器自言自语 • 容易引发机器自我打断用户对响应时间敏感问题： • 用户注意力高度集中，对响应时间要求严格

25. 构建拟人化的交互能力提升双工能力的4个主要手段解决方案语音识别通用语言模型文本纠错双工交互通话拒识模型文本纠错模型语义分轮模型声学模型自定义语言模型实时热词智能打断策略热词模型模型热词提取模型端端到模型融合语音语义，构建拒识模型 T • 干扰音：判断ASR结果是否是用户对机器的表述用户可能持续表达、持续沉默：结合系统状态，决策机器要采取的行为，比如说立即播报、立即挂断用户对响应时间敏感：模仿人类对话的行为，提前思考和铺垫答案边听边想策略 • • … 结合系统状态，决策机器的行为使用端到端模型，建模双工交互利用链路耗时，缩短响应时间知识库边想边说策略 …

26. 手段1：融合语音语义，构建拒识模型融合语音语义的多模态模型，识别是否是用户对机器的表述构建拟人化的交互能力 ? ? ?−? ? ? Fusion Dot Dot Pooling MFCC+VGGNet T Fusion MFCC 特征动态特征 DCT 取对数 Mel 滤波取绝对值或平方值 FFT 预处理、分帧和加窗 Transformers VGGNet MFCC ?#? Pooling Pooling Fusion Fusion Alignment Alignment ?× block间的残差 Transformers 用户说 Transformers 机器说干扰音识别准确率提升7pp

27. 构建拟人化的交互能力手段2：结合系统状态，决策机器的行为机器沉默时，判断用户是否说完 ? " ? ! Task A Task B Shared Layer Pooling Pooling Fusion Fusion T 语义完整、困惑度低与机器表述相关性强，或单独开辟一个新的话题 • • 表述完成的特点 ? # MLP Alignment ?× block间的残差 Shared Layer 用户表述完成的准确率提升6pp 离散特征 Transformers 用户说 Transformers 机器说

28. 构建拟人化的交互能力手段2：结合系统状态，决策机器的行为机器播报时，判断用户是否想打断机器 ? ! 用户语气化的表述，用户补充前一轮的表述用户提前回答当前问题，用户包含负面情绪的表述 • 有效意图判定 Fusion MLP • T 语气词过滤常用的打断特征 Pooling • • ? " 常见的打断场景打断模型机器播报状态、用户query间隔、query字数等 query的语义信息离散特征 Transformers 用户说

29. 手段2：结合系统状态，决策机器的行为机器沉默时，判断如何引导用户，调节对话氛围 • • 不打断用户承接词或感叹词唤醒话术唤醒话术播报后挂机 T 用户持续表述时适时给予回应提醒用户回到主流程 • • 用户持续沉默时主动唤醒构建拟人化的交互能力铺垫话术铺垫话术铺垫话术

30. 构建拟人化的交互能力手段3：使用端到端模型，建模双工交互全双工交互建模状态动作 T 时机双工行为建模输入类型描述输入文本、起止时间、VAD标志状态用户（发声，沉默）* 机器（播报，沉默）时机 VAD标志、用户开始发声、用户表述完成标志、机器准备播报动作 wait、backchannel、response、keep、release、 stop、hangup

31. 构建拟人化的交互能力手段3：使用端到端模型，建模双工交互利用端到端模型建模双工交互中的用户action T Action Topic Coherence Gated Turn-taking Fusion 特殊Token： [MP]=机器位置Token, [UT]=用户相对机器的时间Token [AT]=后续的Action Token

32. 手段4：利用链路耗时，缩短响应时间利用静默时间提前请求并缓存，节约下游程序调用时间构建拟人化的交互能力静默等待 600-700ms VAD/ASR处理我我要查我要查订单 NLU BOT 延迟 300ms 问答链路 TTS合成通信链路响应时间 T “您的订单XX” 延迟 200-300ms CACHE 我要查订单呀结束信号话术 100ms 我要查响应时间静默等待 600-700ms 延迟 200-300ms VAD/ASR处理 TTS合成问答链路延迟 300ms 通信链路

33. 构建拟人化的交互能力手段4：利用链路耗时，缩短响应时间判断用户表述语义完整，并给予铺垫回复我要查我要查订单 NLU BOT “您的订单XX” T 结束信号延迟 200-300ms VAD/ASR处理 TTS合成延迟 300ms 通信链路问答链路 CACHE 我要查订单呀 “这样啊” 静默等待 600-700ms 我我要查响应时间响应时间语义模型 TTS合成通信链路静默等待 600-700ms 延迟 200-300ms VAD/ASR处理 TTS合成问答链路延迟 300ms 通信链路

34. 构建拟人化的交互能力小结多模态拒识模型识别是否是用户对机器人的表述语音识别通用语言模型分轮、打断、唤醒、铺垫等策略决策机器的行为端到端模型预测双工交互中用户的action 双工交互文本纠错通话拒识模型文本纠错模型语义分轮模型声学模型自定义语言模型实时热词智能打断策略热词模型模型热词提取模型端端到模型 T 边听边想与边想边说策略缩短系统响应时间边听边想策略噪声识别准确率提升 7pp 表述完成准确率提升 6pp … 知识库机器响应时间缩减 400ms 边想边说策略 …

35. •电话机器人的需求与挑战 •复杂场景下的语义理解 •构建拟人化的交互能力 •未来规划 T 目录 content

36. 未来规划构建拟人化的交互能力端到端模型 T 语音语义的SLU 复杂场景下的语义理解更丰富的知识个性化的交流

37. T THANKS & QA

38. 招聘：NLP算法工程师邮箱：wangjian79@meituan.com T 更多技术干货欢迎关注“美团技术团队”