人-人对话数据驱动多轮对话能力建设的探索和实践

1. 智能客服中心-孙超博 2022年5月 T 人-人对话数据驱动多轮对话能力建设的探索和实践美团平台语音交互部

2. 个人介绍美团算法专家负责美团拟人化多轮对话模型的探索与落地，以智能客服托管机器人产品形态已在骑行、猫眼等业务场景完成落地 T 曾负责美团客服&商家IM助手B端、C端两侧的话术推荐

3. 引言 A • 美团客服中的多轮对话-why • 美团客服中的多轮对话-how 提纲数据驱动的多轮任务型对话技术 T B 总结和展望 C

4. 业务规模机器人数量 • 服务60+业务 • 6000+ 活跃task • 每个业务平均100+场景路由外卖兑红包买会员配送慢 … … … … • 日均800w+请求 • 高峰期成倍增长每日高峰期节假日高峰 T 落东西开发票 … 服务量级解决问题骑行忘关锁美团客服机器人简介天气因素高峰

5. 美团客服机器人简介美团的客户通常进线有哪些问题？ Ø 咨询 Ø 常规售后问题要求退款政策咨询北京到西安的机票能退吗？ …… 电影票不想去了能退吗 …… 两小时了还没有到账怎么一直没有单派单少 T 优惠券在哪里看？个人原因退款帮我把车辆管理费免了吧 …… 催促充值操作方式咨询 Ø 难以解决的问题问答任务型对话处理安抚与共情

6. APP操作路径红包在哪里看？可以提现吗？您好，随时可以提现的请问您的实际骑行时间是多久呢？十来分钟吧按照十分钟为您结费，您看可以吗？可以已经按照实际骑行时间为您结费，请后续记得锁车哦～如果不改就投诉了小美帮您的特殊申请没有通过，实在无法帮您改签了呢 T Ø 任务型多轮 Ø 问答多轮美团客服机器人主要难点 Ø 安抚多轮非常抱歉，无法为您改签呢通融一下嘛小美理解作为消费者，理解您的心情，但因为影院规定，实在是无法为您改签呢

7. 美团客服机器人整体架构 Ø 业务发展的趋势 ü 拟人化 T Ø 低成本、易推广的 Taskfflow挖掘框架 Ø 拟人的端到端模型

8. 提纲数据驱动的多轮任务型对话技术 B • 工作1：TaskFlow半自动构建 T • 工作2：客服场景的E2E的会话模型 C 总结和展望 A 引言

9. 多轮对话技术-传统pipeline方法语音识别（ASR）对话管理 (DM) 对话状态追踪（DST）数据库对话策略（DP） T 🗣 自然语言理解（NLU）语音合成（TTS）自然语言生成（NLG）

10. 对话状态跟踪(DST) • 封闭意图集合定义困难 • 泛化能力差 • 每个场景的完整意图集合大 • 流程图配置复杂 • 槽的推理和管理需要场景粒度的配置 • 一个业务专家大概需要一周时间完成一个场景配置回复生成(NLG) • 话术配置比较困难 • 回复的复杂度与策略模块的复杂度成正比 T 约需要20-30PD 策略模块(Policy) 语义理解(NLU) 多轮对话技术-传统pipeline方法的已知问题大量的监督样本标注大量的服务流程配置算法模块的误差传递

11. T TaskFlow的自动挖掘端到端模型

12. Taskflow-Pipeline中的人工工作意图标注服务流程配置 • 语义人工标注 • 人工编写将服务流程通过自动机方式表达出来 ✓ 话术1 T 意图话术2 话术3 ✓ ✗ 回复话术配置 • 人工配置确定状态下的回复

13. TaskFlow-自动化的难点意图体系可复用自动挖掘对话流程 • 60+业务，业务差距大 • 每个业务下100+场景 • 单个场景160+意图 T • 低成本，应大大低于人工完整配置task的流程 • 可运营，要求显式的对话结构自动挖掘回复 • 实际对话中存在大量不规范话术

14. Taskflow-离线挖掘-动作体系构建 Ø 基于Bert特征的聚类模型辅助构建 T Ø 动作体系：上下位关系

15. Taskflow-离线挖掘-对话标准化 T Ø 基于Bert的pairwise匹配模型

16. T Ø 统计全局/局部高频action ngram序列，作为子流程候选 Ø 序列合并为树型结构 Taskflow-离线挖掘-TaskFlow构建

17. Taskflow-在线推理意图识别 API参数抽取 T （离线构建时产出的BERT匹配模型） TaskFlow执行（基于BN网络的task执行引擎）

18. 降低标注成本 Taskflow-离线挖掘-小结降低运营成本 • 运营仅需对候选流程剪枝 • 90%的上位概念可应用于其他业务 • 一周配置工作降到几个小时 • 更完善的意图体系/流程覆盖 • 对线上会话完整覆盖率达到80% T • 骑行、外卖等业务双侧动作体系提升效果 A Low-Cost, Controllable and Interpretable Task-Oriented Chatbot: With Real-World After-Sale Services as Example , SIGIR 2022 industry track

19. T TaskFlow的自动挖掘端到端模型

20. 端到端模型-从pipeline到端到端 T Ø Pipeline方法的四个模块对应于四个任务

21. 端到端模型-要解决的问题 T Ø 要解决的问题：利用端到端对话技术，构建更加拟人化的客服机器人 Ø 解决思路：通过限制场景、增加监督信息，建议端到端模型在真实业务场景中的落地难度

22. 端到端模型-难点监督信号选择 T • 需要Session维度的标注 • 如何有效利用对话信息之外的实时现场？ • 什么是合适的监督信号粒度？ • API、System Action、 DialogAct？训练数据构建模型效果 • 流程一致性 • 模型对用户说法的泛化能力 • 生成多样性

23. 端到端模型-监督信号粒度选择 • 优势：低成本，可以大量获取原始会话 • 劣势：但同时也存在低质量/不合规对话；并且因为缺少标注信息，无法根据API结果控制对话流程/预测对话外的实际操作 • 劣势：需要session维度的人工标注 API • 优势：相对低成本，覆盖实际业务中所需的所有信息，可通过与客服操作日志关联获取预打标的训练数据 • 优势：直观上可以较好兼顾多样性和一致性 Action • 劣势：尽管标注成本相对较低，但存在多个标注流程，算法&标注耦合较重 T System • 优势：完善的监督信号 DialogAct • 劣势：昂贵的标注成本，难以控制的标注质量

24. • 坐席操作日志对会话预打标 • 人工检查预训练模型 • CDialogGPT • Chinese T5 T 训练数据 • API：低标注成本获取足够信息监督信号端到端模型-模型1：Dialog2Api

25. 端到端模型-模型1：Dialog2Api模型的问题 ü 监督信号粒度问题 ü 训练数据构造问题一致性 API -> Answer 拟人化话术多样性 Answer 对用户说法的泛化 Context T Context -> API API话术相关性 API预测准确率 Ø 模型效果 Ø 针对API特殊建模？ Ø 引入控制话术多样性的变量？ Ø 更强的预训练模型？

26. • API 监督信号端到端模型-模型2：Retrieval-guided Dialog2Api 训练数据引 • 对于预测目标为API后话术的样本，预训练模型 • CDialogGPT • Chinese T5 T 上下文中加入随机检索出的话术 • 从训练数据构建API结果到话术的索

27. • 系统侧Action • API调用作为一种特殊action 训练数据 • 复用TaskFlow挖掘中的system 预训练模型 • Action预测无预训练，使用原生 transformer T action体系监督信号端到端模型-模型3：Dialog2Action

28. 端到端模型-离线评估方法 API 流畅度 • API预测准确率/召回率 • 多样性 • ROUGE • API话术相关性 • 流畅性 • 上下文相关性 • 流程一致性 T • BLEU 满意度评测自动化评测人工评测

29. • 不同模型的性能预训练参数规模 Dialog2Api CDiaGPT 117M RG-Dialog2Api CDiaGPT 117M Dialog2Action 无 1.1M 模型判责API F1 改费API F1 满意度 - - - - - +6.86 +1.77 +0.53 -0.15 +3.40 -1.21 -7.77 +0.51 +0.73 +1.31 T 预训练模型的影响 BLEU-4 ROUGE-L 模型 • 数据集 • 两个API：判责、改费 • 训练集：8000+session • 测试集：1000+session • 端到端模型-离线评估结果预训练参数规模 BLEU-4 ROUGE-L 判责API F1 改费API F1 满意度 CDiaGPT 117M - - - - 220M +4.29 -2.08 -0.47 -0.37 +2.73 1B +4.25 +0.37 +3.57 +5.21 Dialog2Api T5-base Meituan-T5-1B - -0.16

30. 提纲数据驱动的多轮任务型对话技术 T B C 总结和展望 A 引言 • 总结 • 展望

31. 总结 Ø TaskFlow T • 双侧监督信号 • 最强的可解释性 Ø Dialog2Action • 系统侧监督信号 • 快速推理 Ø Dialog2Api • 最少的监督信号 • 黑盒，可以有效利用预训练模型

32. 未来规划 T Ø 提升拟人化能力

33. T Q&A

34. 招聘：NLP算法工程师邮箱：sunchaobo@meituan.com T 更多技术干货欢迎关注“美团技术团队”