实体链接技术在 OPPO 自研知识图谱和小布助手的应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 实体链接技术在 OPPO 自研知识图谱 和小布助手的应用实践 OPPO 小布助手高级 NLP 算法工程师 樊乘源 邮箱:fanchengyuan@oppo.com 2021/9/25 1
2. 1.简介 2.实体链接技术 3.实体链接应用 4.展望 2 2
3. 3 简介
4. 简介 l 小布助手是 OPPO 旗下有趣贴心、无处不在的 AI 助手,覆盖用户超过 2亿,月活跃用户破亿,技术团队致 力于语义理解、对话交互相关技术的研发,提升用户体验。 l Ograph 是 OPPO 自研知识图谱,包含数百个领域、数亿实体、数十亿关系,在实体分类、实体对齐、 KBQA 等领域有丰富的技术积累。 小布助手 www.volcengine.com
5. 背景 5 5 在语音助手场景,经常会出现一词多义或者口语化表达等问题。 Eg. 李白出装,李白的诗,播放李白。第一李白是指游戏角色,第二个是指诗人李白,第三个是指歌曲李白, 需要使用实体链接技术解决这些问题。 实体链接是NLP、知识图谱领域的基础任务之一,即对于给定的一个中文文本,将其中 的实体描述(mention)与给定知识库中对应的实体进行关联的任务。 玩的李白 读的李白 听的李白 www.volcengine.com
6. 技术发展 2014 年之前 基于统计特征的方法 基于图方法 2009 年 Text Analysis Conference 提出评测任务 6 6 2017 年 End-to-End Entity Linking 2017 年 Deep Joint 2020 年 Entity Knowledge Entity Linking 2018 年 Deep Type www.volcengine.com
7. 7 实体链接技术
8. 实体链接技术-技术难点 8 8 通常实体链接会分为三步:实体识别、候选实体召回、实体消歧。 实体识别 通用领域实体识别,实体量级大,需要兼顾效率和泛化。 卷福 候选实体选取 实体消歧 抖森 字母哥 丰满奥特曼 存在大量别名、昵称、同音字、口语化表达 语音场景缺乏用户反馈,缺乏监督信号 短文本上下文特征缺失 需要同时考虑语义特征和全局特征 存在未对齐实体,容易出现标注错误 ? 刘德华给学员讲课,把 炸弹比喻成姑娘的手 ? 香港男演员、歌手 ? www.volcengine.com 清华大学教授
9. 实体链接技术-技术架构 9 9 query:李白所在朝代的皇帝是谁 预处理 query样本:#李白#所在朝代的 皇帝是谁 实体链指 实体样本: 名称相同,非主义项, 类型:游戏角色,李白是腾讯手 游《王者荣耀》中的一位刺客 型英雄角色,原型为唐代诗... OGraph 实体识别 全局共现 流行度 丰富度 候选实体选取 实体消歧 链接结果 实体识别 热度 描述 标签 关系 属性 类型 候选实体选取 实体消歧 www.volcengine.com
10. 实体链接技术-实体识别 10 10 1. 高频高热实体和句式-自研匹配工具 word parser 工具包 耗时 内存 多模匹配 模板查询 flashtext 3.99e-5 390M 不支持 不支持 word parser 3.19e-5 175M 支持 支持 2. 实体识别模型 实体链接中并不关心实体类型,使用 B/I 标签或者指针标注的模式, 同时为了提升输入信息的丰富程度,引入词汇信息作为特征补充, 试验了 Lattice LSTM 和 FLAT 等结构,实体识别效果提升约 1%。 《FLAT: Chinese NER Using Flat-Lattice Transformer》Xiaonan Li, Hang Yan, Xipeng Qiu, Xuanjing Huang. www.volcengine.com
11. 实体链接技术-候选实体挖掘 11 11 l 解决问题: 通用实体别名、昵称问题 l 任务特点: 信息挖掘任务,可以充分使用图谱数据进行抽取和挖掘 √ 周董 l 关键技术 :基于信息抽取模型和模式生成的别名发现 √ 杰伦 实体别名 通用别名挖掘 OGraph 非结构化文本 图谱关系 特征筛选 模型抽取 模式生成 × 小公举 √ Jay √ 陕西西安 √ 陕西省西安市 √ 陕西省会 . . . x 吊车尾 √ 鸣人 √ 火影鸣人 . . . www.volcengine.com
12. 实体链接技术-候选实体挖掘 l 关键技术: 基于特征聚类的别名发现 12 12 query 筛选 l 解决问题 :特定业务领域别名发现 搜索点击日志 线上query l 任务特点: 实体与领域相关、别名与语音场景强 相关,多为同音 l 方案特点: 快速迭代、准确率高、针对性强 实体识别 ??? 领域特征 青雅集 雅晴集 晴朗集 清雅集 情雅集 风慢奥特曼 丰满奥特曼 疯马奥特曼 分码奥特曼 特征聚类 倩 雅 集 丰满奥特曼 亻青 牙隹 隹木 fengmanaoteman 候选实体 风慢奥特曼 飞马奥特曼 疯马奥特曼 分码奥特曼 丰满奥特曼 类簇 1 1 1 1 1 标准名 风马奥特曼 风马奥特曼 风马奥特曼 风马奥特曼 风马奥特曼 www.volcengine.com
13. 实体链接技术-实体消歧 1. 消歧本质上是对候选实体进行排序的过程 2. 模型输入: 13 13 query 样本:#李白#所在朝代的皇帝是谁 实体样本 李白-李白,类型:游戏角色,李白是腾 讯手游《王者荣耀》中的一位刺客型英 雄角色,原型为唐代诗人李白。 l 样本构造时,融入丰富的特征 l 构造特征时,优化特征表达 优化 李白,名称相同,非主义项,类型:游 戏角色,李白是腾讯手游《王者荣耀》 中的一位刺客型英雄角色,原型为唐代 诗人李白。 l 统计特征,从多维度出发 3.模型选型:pointwise 排序模型 统计特征 共现特征 排序学习模型示意 query 与实体样本 Jaccard 距离。 流行度 实体描述长度,需进行归一化。 丰富度 实体属性个数,需进行归一化。 共现特征 与其他 mention 的共现,需归一化。 www.volcengine.com
14. 实体链接技术-实体消歧 排序得分 分类结果 14 14 模型创新: l 多任务:排序+分类 l 统计特征:构造 embedding 融合 序号 分类 排序 F1 1 单任务 单任务 85.79 2 多任务 单任务 85.82 3 单任务 多任务 85.83 4 多任务 多任务 85.87 李白所在朝代 的皇帝是谁 www.volcengine.com
15. 实体链接技术-实体消歧 15 15 模型优化 l 模型可视化 l 置信度学习 l 对抗样本训练 l NIL 排序方式的影响 序号 NIL排序方式 序号 模型类型 F1 1 ERNIE-1.0 85.87 AUC 2 ERNIE-1.0+FGM 87.32 1 卡阈值 0.97 3 ERNIE--1.0+PGD 87.35 2 NIL样本 0.96 4 RoBERTa-wwm-ext-large+FGM 87.79 3 NIL0/1分类 0.94 不同 NLI 排序方式结果 可视化结果 对抗学习 《Towards Deep Learning Models Resistant to Adversarial Attacks》 A Madry, A Makelov, L Schmidt, D Tsipras. www.volcengine.com
16. 16 实体链接应用
17. 实体链接应用-小布问答 17 17 l 场景简介: 精准直达的知识问答能力是小布助 手的高频场景,用户对语音助手的智能抱有很强 的期望,会出现各类问题 l 方案简介: 通过实体识别、实体链接、子图匹 配等模块,解决了实体问答、结构化问答、多跳 问答、六度关系查询等问题。 数据集 F1 小布实体链指数据集 96.12% 小布实体链指数据集(只含歧义) 82.18% 千言实体链指评测集 91.20% www.volcengine.com
18. 实体链接应用-Ograph 信息抽取 18 18 l 场景简介: Ograph 目标是建设实时、准确、全面的知识图谱,需要针对缺失 SPO 进行补充。 l 方案简介: 使用多种抽取范式,从非结构化文本中抽取 SPO,并进行校验,最后通过实体链接进行入库。 数据 准备 实体描述 网页结果 关系 抽取 特征模板 信息抽取模型 阅读理解模型 实体 链接 判定来源 判定来源 链接模型 人工校验 三方结果 信息抽取模型 MRC 模型 A Novel Cascade Binary Tagging Framework for Relational Triple Extraction.Zhepei Wei, Jianlin Su, Yue Wang, Yuan Tian, Yi Chang www.volcengine.com
19. 19 展望
20. 展望 20 20 l 端到端实体链接的应用 l 领域/图谱自适应模型 www.volcengine.com
21. 参考文献 21 21 [1] Deep Joint Entity Disambiguation with Local Neural Attention. Octavian-Eugen Ganea, Thomas Hofmann. [2] Improving Entity Linking by Modeling Latent Entity Type Information,Shuang Chen, Jinpeng Wang, Feng Jiang, Chin-Yew Lin. [3] End-to-End Neural Entity Linking. Nikolaos Kolitsas, Octavian-Eugen Ganea, Thomas Hofmann. [4] Investigating Entity Knowledge in BERT with Simple Neural End-To-End Entity Linking, Samuel Broscheit. [5] Towards Deep Learning Models Resistant to Adversarial Attacks. A Madry, A Makelov, L Schmidt, D Tsipras. [6] Confident Learning: Estimating Uncertainty in Dataset Labels. Curtis G. Northcutt, Lu Jiang, Isaac L. Chuang. [7] Towards a Deep and Unified Understanding of Deep Neural Models in NLP. Chaoyu Guan, Xiting Wang, Quanshi Zhang, Runjin Chen, Di He, Xing Xie. [8] Entity Linking via Joint Encoding of Types, Descriptions, and Context. Nitish Gupta, Sameer Singh, Dan Roth. [9] Improving Entity Linking by Modeling Latent Relations between Mentions. Phong Le, Ivan Titov. [10] Chinese NER Using Lattice LSTM.Yue Zhang and Jie Yang. [11] FLAT: Chinese NER Using Flat-Lattice Transformer.Xiaonan Li, Hang Yan, Xipeng Qiu, Xuanjing Huang. www.volcengine.com
22. 欢迎加入 22 扫码关注 扫码关注 “火山引擎开发者社区”公众号 “OPPO 数智技术”公众号 22 www.volcengine.com
23. www.volcengine.com

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-25 02:03
浙ICP备14020137号-1 $Map of visitor$