实体链接技术在 OPPO 自研知识图谱和小布助手的应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 实体链接技术在
OPPO 自研知识图谱
和小布助手的应用实践
OPPO 小布助手高级 NLP 算法工程师
樊乘源
邮箱:fanchengyuan@oppo.com
2021/9/25
1
2. 1.简介
2.实体链接技术
3.实体链接应用
4.展望
2
2
3. 3
简介
4. 简介
l 小布助手是 OPPO 旗下有趣贴心、无处不在的 AI 助手,覆盖用户超过 2亿,月活跃用户破亿,技术团队致
力于语义理解、对话交互相关技术的研发,提升用户体验。
l Ograph 是 OPPO 自研知识图谱,包含数百个领域、数亿实体、数十亿关系,在实体分类、实体对齐、
KBQA 等领域有丰富的技术积累。
小布助手
www.volcengine.com
5. 背景
5
5
在语音助手场景,经常会出现一词多义或者口语化表达等问题。
Eg. 李白出装,李白的诗,播放李白。第一李白是指游戏角色,第二个是指诗人李白,第三个是指歌曲李白,
需要使用实体链接技术解决这些问题。
实体链接是NLP、知识图谱领域的基础任务之一,即对于给定的一个中文文本,将其中
的实体描述(mention)与给定知识库中对应的实体进行关联的任务。
玩的李白
读的李白
听的李白
www.volcengine.com
6. 技术发展
2014 年之前
基于统计特征的方法
基于图方法
2009 年
Text Analysis Conference
提出评测任务
6
6
2017 年
End-to-End Entity Linking
2017 年
Deep Joint
2020 年
Entity Knowledge Entity Linking
2018 年
Deep Type
www.volcengine.com
7. 7
实体链接技术
8. 实体链接技术-技术难点
8
8
通常实体链接会分为三步:实体识别、候选实体召回、实体消歧。
实体识别
通用领域实体识别,实体量级大,需要兼顾效率和泛化。
卷福
候选实体选取
实体消歧
抖森
字母哥
丰满奥特曼
存在大量别名、昵称、同音字、口语化表达
语音场景缺乏用户反馈,缺乏监督信号
短文本上下文特征缺失
需要同时考虑语义特征和全局特征
存在未对齐实体,容易出现标注错误
?
刘德华给学员讲课,把
炸弹比喻成姑娘的手
?
香港男演员、歌手
?
www.volcengine.com
清华大学教授
9. 实体链接技术-技术架构
9
9
query:李白所在朝代的皇帝是谁
预处理 query样本:#李白#所在朝代的
皇帝是谁
实体链指 实体样本: 名称相同,非主义项,
类型:游戏角色,李白是腾讯手
游《王者荣耀》中的一位刺客
型英雄角色,原型为唐代诗...
OGraph
实体识别
全局共现
流行度
丰富度
候选实体选取
实体消歧
链接结果
实体识别
热度 描述 标签
关系 属性 类型
候选实体选取
实体消歧
www.volcengine.com
10. 实体链接技术-实体识别
10
10
1. 高频高热实体和句式-自研匹配工具 word parser
工具包 耗时 内存 多模匹配 模板查询
flashtext 3.99e-5 390M 不支持 不支持
word parser 3.19e-5 175M 支持 支持
2. 实体识别模型
实体链接中并不关心实体类型,使用 B/I 标签或者指针标注的模式,
同时为了提升输入信息的丰富程度,引入词汇信息作为特征补充,
试验了 Lattice LSTM 和 FLAT 等结构,实体识别效果提升约
1%。
《FLAT: Chinese NER Using Flat-Lattice Transformer》Xiaonan Li, Hang Yan, Xipeng Qiu, Xuanjing Huang.
www.volcengine.com
11. 实体链接技术-候选实体挖掘
11
11
l 解决问题: 通用实体别名、昵称问题
l 任务特点:
信息挖掘任务,可以充分使用图谱数据进行抽取和挖掘
√ 周董
l 关键技术 :基于信息抽取模型和模式生成的别名发现
√ 杰伦
实体别名
通用别名挖掘
OGraph
非结构化文本
图谱关系
特征筛选
模型抽取
模式生成
× 小公举
√ Jay
√ 陕西西安
√ 陕西省西安市
√ 陕西省会
. . .
x 吊车尾
√ 鸣人
√ 火影鸣人
. . .
www.volcengine.com
12. 实体链接技术-候选实体挖掘
l 关键技术: 基于特征聚类的别名发现
12
12
query 筛选
l 解决问题 :特定业务领域别名发现
搜索点击日志
线上query
l 任务特点: 实体与领域相关、别名与语音场景强
相关,多为同音
l 方案特点: 快速迭代、准确率高、针对性强
实体识别
???
领域特征
青雅集
雅晴集
晴朗集
清雅集
情雅集
风慢奥特曼 丰满奥特曼
疯马奥特曼 分码奥特曼
特征聚类
倩 雅 集 丰满奥特曼
亻青 牙隹 隹木 fengmanaoteman
候选实体
风慢奥特曼
飞马奥特曼
疯马奥特曼
分码奥特曼
丰满奥特曼
类簇
1
1
1
1
1
标准名
风马奥特曼
风马奥特曼
风马奥特曼
风马奥特曼
风马奥特曼
www.volcengine.com
13. 实体链接技术-实体消歧
1. 消歧本质上是对候选实体进行排序的过程
2. 模型输入:
13
13
query 样本:#李白#所在朝代的皇帝是谁
实体样本
李白-李白,类型:游戏角色,李白是腾
讯手游《王者荣耀》中的一位刺客型英
雄角色,原型为唐代诗人李白。
l 样本构造时,融入丰富的特征
l 构造特征时,优化特征表达
优化
李白,名称相同,非主义项,类型:游
戏角色,李白是腾讯手游《王者荣耀》
中的一位刺客型英雄角色,原型为唐代
诗人李白。
l 统计特征,从多维度出发
3.模型选型:pointwise 排序模型
统计特征
共现特征
排序学习模型示意
query 与实体样本 Jaccard 距离。
流行度 实体描述长度,需进行归一化。
丰富度 实体属性个数,需进行归一化。
共现特征
与其他 mention 的共现,需归一化。
www.volcengine.com
14. 实体链接技术-实体消歧
排序得分
分类结果
14
14
模型创新:
l 多任务:排序+分类
l 统计特征:构造 embedding 融合
序号 分类 排序 F1
1 单任务 单任务 85.79
2 多任务 单任务 85.82
3 单任务 多任务 85.83
4 多任务 多任务 85.87
李白所在朝代
的皇帝是谁
www.volcengine.com
15. 实体链接技术-实体消歧
15
15
模型优化
l 模型可视化
l 置信度学习
l 对抗样本训练
l NIL 排序方式的影响
序号 NIL排序方式
序号 模型类型 F1
1 ERNIE-1.0 85.87
AUC 2 ERNIE-1.0+FGM 87.32
1 卡阈值 0.97 3 ERNIE--1.0+PGD 87.35
2 NIL样本 0.96 4 RoBERTa-wwm-ext-large+FGM 87.79
3 NIL0/1分类 0.94
不同 NLI 排序方式结果
可视化结果
对抗学习
《Towards Deep Learning Models Resistant to Adversarial Attacks》 A Madry, A Makelov, L Schmidt, D Tsipras.
www.volcengine.com
16. 16
实体链接应用
17. 实体链接应用-小布问答
17
17
l 场景简介: 精准直达的知识问答能力是小布助
手的高频场景,用户对语音助手的智能抱有很强
的期望,会出现各类问题
l 方案简介: 通过实体识别、实体链接、子图匹
配等模块,解决了实体问答、结构化问答、多跳
问答、六度关系查询等问题。
数据集 F1
小布实体链指数据集 96.12%
小布实体链指数据集(只含歧义) 82.18%
千言实体链指评测集 91.20%
www.volcengine.com
18. 实体链接应用-Ograph 信息抽取
18
18
l 场景简介: Ograph 目标是建设实时、准确、全面的知识图谱,需要针对缺失 SPO 进行补充。
l 方案简介: 使用多种抽取范式,从非结构化文本中抽取 SPO,并进行校验,最后通过实体链接进行入库。
数据
准备 实体描述 网页结果 关系
抽取 特征模板 信息抽取模型 阅读理解模型
实体
链接 判定来源
判定来源 链接模型 人工校验
三方结果
信息抽取模型
MRC 模型
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction.Zhepei Wei, Jianlin Su, Yue Wang, Yuan Tian, Yi Chang
www.volcengine.com
19. 19
展望
20. 展望
20
20
l 端到端实体链接的应用
l 领域/图谱自适应模型
www.volcengine.com
21. 参考文献
21
21
[1] Deep Joint Entity Disambiguation with Local Neural Attention. Octavian-Eugen Ganea, Thomas Hofmann.
[2] Improving Entity Linking by Modeling Latent Entity Type Information,Shuang Chen, Jinpeng Wang, Feng Jiang,
Chin-Yew Lin.
[3] End-to-End Neural Entity Linking. Nikolaos Kolitsas, Octavian-Eugen Ganea, Thomas Hofmann.
[4] Investigating Entity Knowledge in BERT with Simple Neural End-To-End Entity Linking, Samuel Broscheit.
[5] Towards Deep Learning Models Resistant to Adversarial Attacks. A Madry, A Makelov, L Schmidt, D Tsipras.
[6] Confident Learning: Estimating Uncertainty in Dataset Labels. Curtis G. Northcutt, Lu Jiang, Isaac L. Chuang.
[7] Towards a Deep and Unified Understanding of Deep Neural Models in NLP. Chaoyu Guan, Xiting Wang, Quanshi
Zhang, Runjin Chen, Di He, Xing Xie.
[8] Entity Linking via Joint Encoding of Types, Descriptions, and Context. Nitish Gupta, Sameer Singh, Dan Roth.
[9] Improving Entity Linking by Modeling Latent Relations between Mentions. Phong Le, Ivan Titov.
[10] Chinese NER Using Lattice LSTM.Yue Zhang and Jie Yang.
[11] FLAT: Chinese NER Using Flat-Lattice Transformer.Xiaonan Li, Hang Yan, Xipeng Qiu, Xuanjing Huang.
www.volcengine.com
22. 欢迎加入
22
扫码关注 扫码关注
“火山引擎开发者社区”公众号 “OPPO 数智技术”公众号
22
www.volcengine.com
23. www.volcengine.com