京东智能客服言犀意图体系搭建和意图识别技术实践

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #京东

1. JD 俞晓光京东算法专家 2022年05月27日京东智能客服言犀意图体系搭建和意图识别技术实践

2. 系统介绍意图识别对话管理意图体系梳理清晰、完备的知识体系/用户表述将用户问题精准识别到已有知识点听得懂离线有知识线上能识别对话流程强大的异常处理机制有方案接口打通，答案拼装解决方案深入业务系统足够的权限+清晰的描述 JD 记得住高效的配置、挖掘工具，设计自然流畅的对话流程

3. JD 系统介绍-意图体系示例层级意图 • 从粗到细，顶层固定，底层可灵活变动高频+长尾组织模式 • 高频意图精细运营，保证识别效果 • 长尾意图实时生效，快速实现人工干预

4. JD 意图识别框架通用三层架构： • 离线搭建合理、完备的意图体系。 • 线上通过主动拦截，高频精准识别、长尾意图引导、形成漏斗形模块。 • 数据回流，通过线上问题，完善意图体系、用户问法

5. 意图体系建立通用知识库 JD 意图体系梳理流程标准化梳理流程、人员角色，全流程工具提效大客户：人力充足，海量意图，识别效果要求高小客户：人力不足，少量意图，人效要求高春晚X项目：与现有意图搭配，效果要求高，时间短意图库与识别算法、方案库解耦，定义不同类型意图

6. 问中问题预判输入提示 • • 语义匹配中结合各类意图信息建立语料自动更新机制问后关联推荐 • • • 意图下问法全流程围绕用户核心意图进行引导，搭建全自动更新机制锁定意图 JD • • 打造通用预判引擎，新业务快速接入海量数据沉淀：用户画像、咨询历史、订单状态、行为轨迹基于线上实时咨询意图分布自动迭代模型 • 问前主动拦截-启发式问答 Beyond QA: ‘Heuristic QA’ Strategies in JIMI, DASFAA 2022. (CCF-B) 流转意图 AI推荐与运营配置结合，提升系统多轮能力综合统计特征、意图特征、相关性特征推荐关联问题自动挖掘，即时推荐

7. 识别模式工作内容离线线上 JD 算法高频意图识别算法算法特性 1. 意图体系稳定，运营人员充足， 1. 按类别识别，数据量有保障时泛华能力强有大量训练数据 2. 模型和意图体系绑定，意图/语料有变动需重新训 2. 意图体系合理，类别间区分明练显分类输入：用户问题标注大量训输出：属于每个意图的概无练语料率匹配输入：用户问题 & 候 1.按问句识别，泛华能力较弱标注少量训标注大量候选选问题对 2. 模型和意图体系解耦，增加候选问题无需重新训练语料问题输出：问题对的相似度练适用场景 1. 意图体系经常变动，运营人员较少或数据较少 2. 类别间有一定混淆

8. Lasertagger-MT 模型（GPU）基础模型使用 IcsBert LaserTagger 序列识别 keep和 delete标签，序列标注任务1 序列标签对语义token加权，意图分类任务2 • • 长尾意图识别-长难句识别 • 基础模型使用 IcsBert_tiny 两层模型参数迁移基于CRF的关键词识别，序列标注任务1 关键词标签对token embedding 加权，融合 token的 SWEM、CNN特征，做意图分类任务2 Lasertagger-MT 模型图（GPU）多任务长句意图识别模型（CPU版）数据集2（长短句不完全包含） Bert（GPU版） 82.56% 78.49% Lasertagger-MT（GPU 版） 85.69% 83.51% IcsBTH-cls（CPU版） 80.9% 77.4% ICSBTH-MT (CPU版) 83.03% 79.32% JD 数据集1（长短句完全包含）模型 • • • IcsBert_tiny-MT 模型（CPU） A Two-stage User Intent Detection Model on Complicated Utterances with Multi-task Learning， www 2022

9. JD 将单个意图拆分为：动作、业务、场景、问法四个因子离线半自动搭建知识图谱，生成训练数据，获取识别模型线上针对因子式进行精准反问 • • • 长尾意图识别-多因子识别 A Multi-Factor Classification Framework for Completing Users' Fuzzy Queries, AAAI 2022. (CCF-A)

10. JD 通过引入对比学习提升句向量生成质量通过Drop生成对比样本，增加类别对比损失、样本对比损失多个公开测试集达到SOTA效果 • • • 意图回流 x " 第i个样本第i列表示x " 这个样本属于各个簇的概率分布 c $ 第k个簇第k行表示c $ 这个簇上的单个样本概率分布 SimCTC: Simple Contrast Learning Method of Text Clustering, AAAI 2022. (CCF-A)

11. 主要改进点识别算法-基础预训练模型提出提示性多任务并发学习（类prompt）模型结构 IcsBert（Bert in Intelligent Customer Service）同时兼顾 SOP、QQ匹配、QA问答多种任务预训练数据集下游任务first token：[CLS]处理分类任务、[QQ]处理问题匹配任务、[QA] 处理问答匹配任务 • • • 预训练数据集构建 • • JD • 扩展SOP任务：同一session看做一个Doc，上一句为1，下一句为2，随机句为 0 QQ任务：使用对话数据日志，采用召回方式构建，同一意图标签为1，不同意图标签为 0 QA任务：人人对话数据，同一角色连续话术合并，Q为用户连续话术，A为客服连续话术匹配数据集分类数据集 Bert-base 0.8766 0.9010 Bert + domain_data 0.8882 0.9137 Bert + domain_data + 结构优化 0.8936 0.9186 Roberta-Large 0.8991 0.9138 Roberta-Large + domain_data + 结构优化 0.9000 0.9242 模型模型效果对比

12. JD Thanks