人-人对话数据驱动多轮对话能力建设的探索和实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 智能客服中心-孙超博
2022年5月
T
人-人对话数据驱动多轮对话能
力建设的探索和实践
美团平台 语音交互部
2. 个人介绍
美团算法专家
负责美团拟人化多轮对话模型的探索与落地,以智能客服托管机器人
产品形态已在骑行、猫眼等业务场景完成落地
T
曾负责美团客服&商家IM助手B端、C端两侧的话术推荐
3. 引言
A
• 美团客服中的多轮对话-why
• 美团客服中的多轮对话-how
提纲
数据驱动的多轮任务型对话技术
T
B
总结和展望
C
4. 业务规模
机器人数量
• 服务60+业务
• 6000+ 活跃task
• 每个业务平均100+场景
路由
外卖
兑红包
买会员
配送慢
…
…
…
…
• 日均800w+请求
• 高峰期成倍增长
每日高峰期
节假日高峰
T
落东西
开发票
…
服务量级
解决问题
骑行
忘关锁
美团客服机器人简介
天气因素高峰
5. 美团客服机器人简介
美团的客户通常进线有哪些问题?
Ø 咨询
Ø 常规售后问题
要求退款
政策咨询
北京到西安的机票能退吗?
……
电影票不想去了能退吗
……
两小时了还没有到账 怎么一直没有单
派单少
T
优惠券在哪里看?
个人原因退款
帮我把车辆管理费免了吧
……
催促充值
操作方式咨询
Ø 难以解决的问题
问答
任务型对话处理
安抚与共情
6. APP操作路径
红包在哪里看?
可以提现吗?
您好,随时可以提现
的
请问您的实际骑行时
间是多久呢?
十来分钟吧
按照十分钟为您结
费,您看可以吗?
可以 已经按照实际骑行时
间为您结费,请后续
记得锁车哦~
如果不改就投诉了 小美帮您的特殊申请
没有通过,实在无法
帮您改签了呢
T
Ø 任务型多轮
Ø 问答多轮
美团客服机器人主要难点
Ø 安抚多轮
非常抱歉,无法为您
改签呢
通融一下嘛
小美理解作为消费
者,理解您的心情,
但因为影院规定,实
在是无法为您改签呢
7. 美团客服机器人整体架构
Ø 业务发展的趋势
ü 拟人化
T
Ø 低成本、易推广的
Taskfflow挖掘框架
Ø 拟人的端到端模型
8. 提纲
数据驱动的多轮任务型对话技术
B
• 工作1:TaskFlow半自动构建
T
• 工作2:客服场景的E2E的会话模型
C
总结和展望
A
引言
9. 多轮对话技术-传统pipeline方法
语音识别
(ASR)
对话管理 (DM)
对话状态追踪
(DST)
数据库
对话策略
(DP)
T
?
自然语言理解
(NLU)
语音合成
(TTS)
自然语言生成
(NLG)
10. 对话状态跟踪(DST)
• 封闭意图集合定义困难
• 泛化能力差
• 每个场景的完整意图集合大
• 流程图配置复杂
• 槽的推理和管理需要场景粒
度的配置
• 一个业务专家大概需要一周
时间完成一个场景配置
回复生成(NLG)
• 话术配置比较困难
• 回复的复杂度与策略模块的
复杂度成正比
T
约需要20-30PD
策略模块(Policy)
语义理解(NLU)
多轮对话技术-传统pipeline方法的已知问题
大量的监督样本标注
大量的服务流程配置
算法模块的误差传递
11. T
TaskFlow的自动挖掘
端到端模型
12. Taskflow-Pipeline中的人工工作
意图标注
服务流程配置
• 语义人工标注
• 人工编写将服务流程通过自动机方
式表达出来
✓
话术1
T
意图
话术2 话术3
✓ ✗
回复话术配置
• 人工配置确定状态下的回复
13. TaskFlow-自动化的难点
意图体系可复用
自动挖掘对话流程
• 60+业务,业务差距大
• 每个业务下100+场景
• 单个场景160+意图
T
• 低成本,应大大低于人工完整
配置task的流程
• 可运营,要求显式的对话结构
自动挖掘回复
• 实际对话中存在大量不规范话
术
14. Taskflow-离线挖掘-动作体系构建
Ø 基于Bert特征的聚类模型辅助构建
T
Ø 动作体系:上下位关系
15. Taskflow-离线挖掘-对话标准化
T
Ø 基于Bert的pairwise匹配模型
16. T
Ø 统计全局/局部高频action ngram序列,作为子流程候选
Ø 序列合并为树型结构
Taskflow-离线挖掘-TaskFlow构建
17. Taskflow-在线推理
意图识别
API参数抽取
T
(离线构建时产出的BERT匹配模型)
TaskFlow执行
(基于BN网络的task执行引擎)
18. 降低标注成本
Taskflow-离线挖掘-小结
降低运营成本
• 运营仅需对候选流程剪枝
• 90%的上位概念可应用于其他业务 • 一周配置工作降到几个小时
• 更完善的意图体系/流程覆盖
• 对线上会话完整覆盖率达到80%
T
• 骑行、外卖等业务双侧动作体系
提升效果
A Low-Cost, Controllable and Interpretable Task-Oriented Chatbot: With Real-World After-Sale Services as Example , SIGIR 2022 industry track
19. T
TaskFlow的自动挖掘
端到端模型
20. 端到端模型-从pipeline到端到端
T
Ø Pipeline方法的四个模块对应于四个任务
21. 端到端模型-要解决的问题
T
Ø 要解决的问题:利用端到端对话技术,构建更加拟人化的客服机器人
Ø 解决思路:通过限制场景、增加监督信息,建议端到端模型在真实业务场景中的落地难度
22. 端到端模型-难点
监督信号选择
T
• 需要Session维度的标注
• 如何有效利用对话信息之外的
实时现场?
• 什么是合适的监督信号粒
度?
• API、System Action、
DialogAct?
训练数据构建
模型效果
• 流程一致性
• 模型对用户说法的泛化能力
• 生成多样性
23. 端到端模型-监督信号粒度选择
• 优势:低成本,可以大量获取
原始会话
• 劣势:但同时也存在低质量/不合规对话;并且因为缺少标注信息,无法根据API结果控制对话流程/预测对话外的实际操作
• 劣势:需要session维度的人工标注
API
• 优势:相对低成本,覆盖实际业务中所需的所有信息,可通过与客服操作日志关联获取预打标的训练数据
• 优势:直观上可以较好兼顾多样性和一致性
Action
• 劣势:尽管标注成本相对较低,但存在多个标注流程,算法&标注耦合较重
T
System
• 优势:完善的监督信号
DialogAct • 劣势:昂贵的标注成本,难以控制的标注质量
24. • 坐席操作日志对会话预打标
• 人工检查
预训练模型
• CDialogGPT
• Chinese T5
T
训练数据
• API:低标注成本获取足够信息
监督信号
端到端模型-模型1:Dialog2Api
25. 端到端模型-模型1:Dialog2Api模型的问题
ü 监督信号粒度问题
ü 训练数据构造问题
一致性
API -> Answer
拟人化
话术多样性
Answer
对用户说法的泛化
Context
T
Context -> API
API话术相关性
API预测准确率
Ø 模型效果
Ø 针对API特殊建模?
Ø 引入控制话术多样性的变量?
Ø 更强的预训练模型?
26. • API
监督信号
端到端模型-模型2:Retrieval-guided Dialog2Api
训练数据
引
• 对于预测目标为API后话术的样本,
预训练模型
• CDialogGPT
• Chinese T5
T
上下文中加入随机检索出的话术
• 从训练数据构建API结果到话术的索
27. • 系统侧Action
• API调用作为一种特殊action
训练数据 • 复用TaskFlow挖掘中的system
预训练模型 • Action预测无预训练,使用原生
transformer
T
action体系
监督信号
端到端模型-模型3:Dialog2Action
28. 端到端模型-离线评估方法
API
流畅度
• API预测准确率/召回率 • 多样性
• ROUGE • API话术相关性 • 流畅性
• 上下文相关性
• 流程一致性
T
• BLEU
满意度评测
自动化评测
人工评测
29. • 不同模型的性能
预训练 参数规模
Dialog2Api CDiaGPT 117M
RG-Dialog2Api CDiaGPT 117M
Dialog2Action 无 1.1M
模型
判责API F1 改费API F1 满意度
- - -
-
-
+6.86 +1.77 +0.53
-0.15
+3.40
-1.21 -7.77 +0.51
+0.73
+1.31
T
预训练模型的影响
BLEU-4 ROUGE-L 模型
•
数据集
• 两个API:判责、改费
• 训练集:8000+session
• 测试集:1000+session
•
端到端模型-离线评估结果
预训练 参数规模 BLEU-4 ROUGE-L 判责API F1 改费API F1 满意度
CDiaGPT 117M - -
-
-
220M +4.29 -2.08 -0.47
-0.37
+2.73
1B +4.25 +0.37
+3.57
+5.21
Dialog2Api T5-base
Meituan-T5-1B
-
-0.16
30. 提纲
数据驱动的多轮任务型对话技术
T
B
C
总结和展望
A
引言
• 总结
• 展望
31. 总结
Ø TaskFlow
T
• 双侧监督信号
• 最强的可解释性
Ø Dialog2Action
• 系统侧监督信号
• 快速推理
Ø Dialog2Api
• 最少的监督信号
• 黑盒,可以有效利用预训练模型
32. 未来规划
T
Ø 提升拟人化能力
33. T
Q&A
34. 招聘:NLP算法工程师
邮箱:sunchaobo@meituan.com
T
更多技术干货
欢迎关注“美团技术团队”