企业级知识图谱构建的挑战和技术
如果无法正常显示,请先停止浏览器的去广告插件。
1. 企业级知识图谱构建的
挑战和技术
漆桂林
东南大学认知智能研究所所长
南京柯基数据首席科学家
2. logo
知识图谱简介
3. 知识与智能
DataFunCon 2021
强AI
认知智能
自然语言处理, 知识图谱
(知识、推理、问答、检索)
感知智能(看懂、听懂)
图像识别、视频识别、语音识别
运算智能(计算)
记忆、计算
大数据
4. DataFunCon 2021
什么是知识图谱?
• 知识图谱是一种采用图模型(即由点和线组成的图形)来
对人类知识进行表示的知识库或者知识的集合,并且符合
某种语法和语义
• 知识图谱不仅仅是一个图
• 知识图谱技术包括知识表示、知识获取、融合、更新、质量控制、
推理等问题
江
苏
位于
南
属于
京
“金陵” 省会城市
别名
<主,谓,宾>
<南京, 位于, 江苏>
<南京, 属于, 省会城市>
5. DataFunCon 2021
什么是知识图谱?
• 知识图谱的图模型是一个有向图G=<O,E>
• O是一个实体或者字面量(literal)的集合,一般有以下几种:
• 实例,即一个现实世界中具体的实物,比如说南京;
• 概念,可以看成是实例的集合,比如说省会城市;
• 字面量(literal),主要分为数据类型,这里数据类型包括字符串、日
期值、高度等。
• E是带标签的有向边组成的集合
• 每条边e的标签指的是这条边指代的关系或者属性,比如说“位于”
(关系),“别名”(属性)。
江
苏
位于
南
属于
京
“金陵” 省会城市
别名
https://zhuanlan.zhihu.com/p/148785892
6. logo
知识图谱方法简介
7. DataFunCon 2021
知识图谱的技术体系
语义搜索
可视化
知识问答
知识链接
本体建模
KG Data
知识表示
知识抽取
KBP
文本
知识推理
更加规范的数据表达
更强的数据关联
知识融合
D2R
结构化数据库
Linked Media
/Visual Genome
多媒体
知识众包
OneM2M
传感器
WikiData
众包
8. RDF模型
DataFunCon 2021
• 在RDF中,知识总是以三元组形式出现
• RDF是一个三元组 (triple) 模型,即每一份知识可以被分解为如下形式:
( subject(主) , predicate(谓) , object(宾) )
• URI
• 主谓宾部分由URI唯一标识和定位
• URI一般采取URL格式
• 漆桂林就职于东南大学
(https://cse.seu.edu.cn/gqi.htm, foaf:employedBy, https://cse.seu.edu.cn)
9. RDFS:概念和属性
DataFunCon 2021
• 概念或者类:实例的集合
• 例:人工智能公司
• 概念可以有层次关系
• 例: 人工智能公司是高科技公司
人工智能公司 subclass 高科技公司
9
10. RDFS:定义域和值域
• 属性:两个(实例或者数据类型)集合上的关系
• 例:投资,年龄
• 属性可以有定义域和值域
• 定义域:投资人
• 值域:公司
• 对象属性(object property):连接两个概念
• 例:投资
• 数据属性(data property):连接概念和数据类型
• 例:年龄
DataFunCon 2021
11. DataFunCon 2021
知识抽取框架
从不同来源、不同结构的数据中进行知识提取,形成知识
存入到知识图谱。
链接数据
结构化数据
数据库
图映射
D2R转换
知识图谱
RDF三元组
表格
半结构化数据
列表
包装器
时序信息
Infobox
信息抽取
纯文本数据
多元组事件
12. 实体抽取
DataFunCon 2021
北京时间10月25日,骑士后来居上,在主场以119-112击退公牛。
地点
时间
组织
中新社华盛顿10月24日电 美国众议院三个委员会24日宣布将分
别展开两项与希拉里·克林顿有关的调查,国会民主党人称这是
共和党人试图转移注意力。
人物
13. 关系抽取简介
什么是关系抽取?
p 信息抽取 (Information Extraction)研究领域的任务之一
p 从文本中抽取出两个或者多个实体之间的语义关系
举例:
王健林谈儿子王思聪:我期望他稳重一点。
父子 (王健林, 王思聪)
DataFunCon 2021
14. logo
企业级知识图谱构建的
挑战和技术
15. 少样本关系抽取
DataFunCon 2021
实际场景中,由于数据长尾分布的特性以及人
力标注成本高昂的原因,关系抽取方法往往面
临某些类别的标注极度稀少的问题。目前该领
域的研究多将少样本关系抽取建模为少样本单
关系分类问题,这中设定过度简化了关系抽取
任务的使用场景,尤其是文本中往往提及不止
一条关系三元组。
因此,我们需要研究一种方法能够使模型在少
样本学习的场景中也能够进行多条三元组的抽
取。
Tongtong Wu, Xi Xu, Ningyu Zhang, Guilin Qi, Yuan-Fang Li, Reza Haffari. From One to More: Few-shot Multiple Relation Extraction. Submitted
16. 少样本关系抽取
挑战
不均衡问题:
少样本学习任务内样本不均衡;
None-of-the-Above问题:
测试集中出现训练集中未知的关系类型;
多标签分类:
同一实体对包含了多种关系
DataFunCon 2021
17. 少样本关系抽取
DataFunCon 2021
方法思想:利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系,进而解决NOTA
和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。
18. 少样本关系抽取
方法思想:利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系,进而解决NOTA
和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。
基于预训练模型进行实体及
实体间上下文的编码学习
DataFunCon 2021
19. 少样本关系抽取
方法思想:利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系,进而解决NOTA
和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。
基于图卷积神经
网络的实体关系
建模,实体的表
示为节点,上下
文的表示为边。
DataFunCon 2021
20. 少样本关系抽取
DataFunCon 2021
方法思想:利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系,进而解决NOTA
和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。
拼接实体对的表示
作为三元组的表示,
并基于支撑集构建
每种关系的原型向
量。
21. 少样本关系抽取
DataFunCon 2021
方法思想:利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系,进而解决NOTA
和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。
在计算基于距离的
似然时考虑到数据
集的分布,即样本
的数量越多,
大。
? ! 越
22. 少样本关系抽取
DataFunCon 2021
实验结果 : 主实验
我们在两个多关系抽取数据集上设计了两类少样本学习的设定,如表所示,在多关系少样本学习
场景下,本文所提FOM方法在所提任务上取得了SOTA性能。
23. 少样本关系抽取
DataFunCon 2021
实验结果:消融实验
我们在两个多关系抽取数据集上设计了两类少样本学习的设定,如表所示,在多关系少样本学习
场景下,针对各个子问题所提出的机制均能够给模型带来一定的提升。
24. 增量关系抽取
灾难性遗忘
DataFunCon 2021
25. 增量关系抽取
顺序敏感性
DataFunCon 2021
26. 增量关系抽取
我们的方法思想
基于课程元学习的经验重演方法
Curriculum-meta Learning
Tongtong Wu, Xuekai Li, Yuan-Fang Li, Gholamreza Haffari, Guilin Qi,
Yujin Zhu, Guoqiang Xu: Curriculum-Meta Learning for Order-Robust
Continual Relation Extraction. AAAI 2021: 10363-10369
DataFunCon 2021
27. DataFunCon 2021
增量关系抽取
方法思想
基于课程元学习的经验重演方法
Curriculum-meta Learning
每当一个新任务到达时,执行以下几步:
1 通过基于知识的课程控制器KB-C从记忆模块中按照
一定的顺序挑选样本;
1
1
28. DataFunCon 2021
增量关系抽取
方法思想
基于课程元学习的经验重演方法
Curriculum-meta Learning
每当一个新任务到达时,执行以下几步:
2 按被选记忆样本的顺序复习已学习的关系类型;
2
2
29. DataFunCon 2021
增量关系抽取
方法思想
基于课程元学习的经验重演方法
Curriculum-meta Learning
每当一个新任务到达时,执行以下几步:
3. 学习当前任务中包含的关系类型;
3
3
30. DataFunCon 2021
增量关系抽取
方法思想
基于课程元学习的经验重演方法
Curriculum-meta Learning
每当一个新任务到达时,执行以下几步:
4. 从当前任务的训练样本中挑选少量样本并保存至记
忆模块
4
31. 增量关系抽取
实验结果 :
全局准确率 ??? ! : = ??? ",? !"#!
平均准确率 ??? % : = & '
∑ ??? ",? $
' ()&
!"#!
误差区间 ??: =
? % ×
&
*
+
本文所提方法在取得了最高的准确率的同时取得了较小的误差区间,说明模型同时在灾难性遗忘与顺序
敏感性等两个问题上达到了了SOTA。
DataFunCon 2021
32. 基于主动学习的关系标注与抽取
DataFunCon 2021
研究动机
基于监督学习的关系抽取的问题:依赖于大量标注数据、业务落地成本高
解决思路
- 少样本学习——提高对有限数据样本的利用效率
- 远程监督/半监督学习/主动学习/文本增强——数据增强,降低标注成本
主动学习
- 通过计算机器学习过程中的指标(即模型预测错误的次数),获取较难分类的
数据样本
- 人工对这些样本进行校对和审核,并将校对后数据重新用于机器学习模型的训
练
- 提升机器学习模型的性能,并降低标注的数据量
33. 基于主动学习的关系标注与抽取
方案思路
· 实体识别模型:
使用通用数据集训练
对待抽取文本进行实体识别
人工进行实体配对,确定头尾实体
·少样本关系抽取模型:
主动学习技术
使用通用数据集训练得到初始化参数
提供少量已标注的专用关系数据进行训练并预测
预测正确的数据加入专用关系库
预测错误的数据人工校对,达到一定指标则对参数微调
少样本关系抽取
引入主动学习的部分
34. 基于主动学习的关系标注与抽取
待抽取的文本篇章
人工选择NER识别出的实
体对
模型关系抽取结果
关系抽取系统运行示例
35. 知识图谱认知智能技术中台及产品
全流程半自动化、人机协同的知识图谱构建、运维与分析平台
多人协同标注
NLP模型平台
图谱运维平台
语义检索
智能问答
图谱算
法API
知识图谱
构建平台
可视化关联探索
用户画像,
个性化智能推荐
辅助决策
医药健康
标杆客户
政企
标杆客户
36. 知识图谱认知智能技术中台及产品
基于知识图谱的半自动化运维的智能问答平台
•
•
•
•
•
•
•
用户意图精准识别,基于前沿的NLP和
知识图谱技术;
问答服务完整度高,问答机器人可整
合在线客服系统,问询系统,提供整
套解决方案;
复杂问答场景灵活可配置,包括多轮
问答、多媒体问答,任务式问答等;
内容来源形式丰富,包括FAQ,知识库,
知识图谱,接口,文档等;
半自动化运维能力,标记运维和自动
化测试,问答准确率保持稳定;
用户闭环体验,支持知识定向推送,
提升用户留存率;
项目落地能力强,可少数据冷启动,
37. 总结与展望
• 领域知识图谱构建经常面临资源不足的问题
-标注数据缺乏,用户往往不愿意标注数据用于模型训练
-增量场景下模型训练会产生灾难性遗忘问题
• 解决低资源场景下图谱高效构建需要综合多种方法
-采用元学习解决少样本模型训练
-采用持续学习解决增量场景下模型训练的灾难性遗忘问题
-采用主动学习设计人机交互标注系统
• 未来展望
-研究基于百科知识的领域图谱构建技术—知识复用
-研究领域迁移的领域图谱构建技术—迁移学习
38. 柯基微信公众号
mwl@kgtdata.com
gqi@seu.edu.cn
Thank you!