NLP 应用中数据治理遇到的困难及解决方案

1. NLP应用中数据治理遇到的困难及解决方案彭嘉小米集团技术委员会 NLP质量负责人

2.

3. • 小爱智能助手介绍 • AI算法评估遇到的数据问题 • 线下线上评价结果不一致的解决方案 • 多次评测指标波动的解决方案 • 新探索与总结

4. 1 小爱智能助手介绍

5. 小爱语义标签结构播放周杰伦的歌 Domain(垂直领域) intent(意图) named entity(命名实体) … 天气查询温度时间 … 地点查询空气质量音乐按歌手查询歌手 … 类别推荐语言

6. 小爱语义理解流程 Query 意图预判 Top-K垂域意图解析意图分类内容.音乐.按歌手查询三级意图准确率/召回率二级准确率/召回率一级准确率/召回率垂域结果排序

7. 2 AI算法评估遇到的数据问题

8. NLP应用开发过程中常遇到的问题离线算法指标好，线上表现就一定好么如何持续地获得高质量的训练/评测集上线前评测数据量级多大合适算法指标有波动，到底应该相信哪一次

9. 聚焦在AI模型上线前评测遇到的问题离线算法指标好，线上表现不一定好搜索推荐算法评测指标好，但是线上首条完听率并没有提升多轮对话准确率从90%提高到93%，但是线上用户重说率没有显著降低模型策略都没改动，数据集没变化，指标有波动同一时间段多次评 10:05 95.17% 测模型，指标一直 10:10 95.29% 11:03 94.98% 上下波动 .

10. 3 线下线上评价结果不一致的解决方案

11. 表现不一致的因素拆解评测环境难以评估多个系统相互施加的影响线下和线上的评价体系不同标注结果逐渐偏离普通用户认知模型的训练和评测使用的是历史数据

12. 评测环境难以评估多个系统相互施加的影响唤醒语音识别语义理解结果满足播放德云斗笑社最新一期单词vaccine 语音识别系统输出参数错误播放的逗笑上一句不理解播放第三期意图不一样拼读 VACCINE

13. 线下和线上评价体系不同用户感知算法团队 AUC F1值 Precidion Recall 流畅程度博学程度换一种表达听不懂业务团队 … 收听时长 … 不满足重说率

14. 滥用标签导致逐渐偏离用户认知静音（扬声器持续关闭） “安静” 暂停播放

15. 模型的训练和评测使用的是历史数据随着时间的推移，线上特征分布可能发生了变化，比如新冠，奥运会 7 6 6 5 5 4 5 4 4 4 3 2 2 1 1 0 控制音乐新闻新冠发生前新冠发生初期医疗知识

16. 线上线下表现不一致问题的解决方案单一系统和全链路自动化评测都要有环境路由实现模块和整体的效果比较语音交互全链路的端到端评测，通过设置反思指标体系，警惕指标与用户问题脱节深入了解用户，用新视角重新看待数据承认随机性普遍存在大概率比线上正在运行的好线下评测指标好，只能说明新模型或策略

17. 有环境路由功能的全链路评测架构

18. 4 多次评测指标波动问题解决方案

19. 影响评测指标的因素

20. 指标的最终用户仅关注最后一个阶段：启动评测和指标输出

21. 上文 5 过程中涉及 3 核心因素语义标签评测环境数据质量

22. 解决指标波动-分类标签尽量正交语义空间大，提前定原则工具类闹钟控制类计算器生活服务类导航电商 80+domain 本地控制智能家居信息问答类天气星座 2600+intent 内容类音乐视频闲聊互动类闲聊 10000+slot

23. 举例说明分类标签的正交正交检查的原则：将每个垂域领域的分类标签抽象归纳成谓词结构，将相似谓词结构短语用思维脑图连接一块。案例：诗歌垂域：通过属性查询作者介绍->通过属性查询人物介绍-> 通过一度信息查询人物介绍 VS 人物垂域：通过一度信息查询人物介绍

24. 标签冲突时处理原则1 • 精细化运营的垂直领域语义标签优先于通用的垂直领域语义标签。菜谱星座天气医疗客观知识问答开放域信息问答

25. 标签冲突时处理原则2 • 直接满足用户需求的语义标签优先于间接满足用户需求的语义标签。直接满足用户音乐视频最少二次交互满足用户控制APP 电台

26. 小结-分类标签定义技巧提前定义标注原则正交避免标签冲突冲突标签看谁优先

27. 解决指标波动-指标误差率的计算永远不可能把所有数据标注完，永远无法精确衡量模型对全量数据的准确率。根据大数定律随着样本容量n的增加，多次采样评测的准确率平均值接近于总体评测准确率。所以需要多大的样本才能准确衡量模型

28. 解决指标波动-指标误差率的计算问题抽象为：总体的平均值和标准差未知的条件下，依据样本，对样本来自的总体参数进行估计 n:样本数 moe(margin of error)：多次评测指标误差率 :总体标准差 t：统计量在t分布下，你想要的置信度下的 t 值

29. 解决指标波动-指标误差率的计算通过除法，消除同类项指标的误差幅度受统计样本大小的影响，随着样本大小的增加，误差率也会降低

30. 解决指标波动-指标误差率的计算实验步骤：标注师的素质，分类标签的复杂度，评测环境，数据集的标注准确率在短期内不会有变化 1. 取一个固定样本量n1（不要太小），多次评测，计算评测的结果的平均值和标准差 2. 业务提出希望达到的理想误差率是多少, 假设0.05% 3. 放入公式计算需要的样本量n2。总结：表示基于贵厂商现有标注师素质，分类标签的复杂度，评测环境，需要n2样本，才能达到业务需求。

31. 小结-减小指标波动指标是复杂流程的最终产物不盲目相信经验数据用实验确定本公司的评测量级和指标误差

32. 5 新探索与总结

33. 探索使用半监督学习解决新业务标注数据少

34. 总结要想算法研发的努力不付之东流保证分类标签符合质量需求保证指标体系符合用户感知保证数据符合业务实际状况要想模型策略的迭代能够真正推动业务

35.

36. THANK YOU. 永远相信美好的事情即将发生彭嘉小米·NLP质量负责人小米·人工智能部意图定义委员会主席