企业级知识图谱构建的挑战和技术

如果无法正常显示，请先停止浏览器的去广告插件。

1. 企业级知识图谱构建的挑战和技术漆桂林东南大学认知智能研究所所长南京柯基数据首席科学家

2. logo 知识图谱简介

3. 知识与智能 DataFunCon 2021 强AI 认知智能自然语言处理, 知识图谱 (知识、推理、问答、检索) 感知智能（看懂、听懂）图像识别、视频识别、语音识别运算智能(计算) 记忆、计算大数据

4. DataFunCon 2021 什么是知识图谱？ • 知识图谱是一种采用图模型（即由点和线组成的图形）来对人类知识进行表示的知识库或者知识的集合，并且符合某种语法和语义 • 知识图谱不仅仅是一个图 • 知识图谱技术包括知识表示、知识获取、融合、更新、质量控制、推理等问题江苏位于南属于京 “金陵” 省会城市别名 <主，谓，宾> <南京, 位于, 江苏> <南京, 属于, 省会城市>

5. DataFunCon 2021 什么是知识图谱？ • 知识图谱的图模型是一个有向图G=<O,E> • O是一个实体或者字面量（literal）的集合，一般有以下几种： • 实例，即一个现实世界中具体的实物，比如说南京； • 概念，可以看成是实例的集合，比如说省会城市； • 字面量（literal），主要分为数据类型，这里数据类型包括字符串、日期值、高度等。 • E是带标签的有向边组成的集合 • 每条边e的标签指的是这条边指代的关系或者属性，比如说“位于” （关系），“别名”（属性）。江苏位于南属于京 “金陵” 省会城市别名 https://zhuanlan.zhihu.com/p/148785892

6. logo 知识图谱方法简介

7. DataFunCon 2021 知识图谱的技术体系语义搜索可视化知识问答知识链接本体建模 KG Data 知识表示知识抽取 KBP 文本知识推理更加规范的数据表达更强的数据关联知识融合 D2R 结构化数据库 Linked Media /Visual Genome 多媒体知识众包 OneM2M 传感器 WikiData 众包

8. RDF模型 DataFunCon 2021 • 在RDF中，知识总是以三元组形式出现 • RDF是一个三元组 (triple) 模型，即每一份知识可以被分解为如下形式： ( subject（主） , predicate（谓） , object（宾） ) • URI • 主谓宾部分由URI唯一标识和定位 • URI一般采取URL格式 • 漆桂林就职于东南大学 (https://cse.seu.edu.cn/gqi.htm, foaf:employedBy, https://cse.seu.edu.cn)

9. RDFS：概念和属性 DataFunCon 2021 • 概念或者类：实例的集合 • 例：人工智能公司 • 概念可以有层次关系 • 例：人工智能公司是高科技公司人工智能公司 subclass 高科技公司 9

10. RDFS:定义域和值域 • 属性：两个（实例或者数据类型）集合上的关系 • 例：投资，年龄 • 属性可以有定义域和值域 • 定义域：投资人 • 值域：公司 • 对象属性（object property）：连接两个概念 • 例：投资 • 数据属性（data property）：连接概念和数据类型 • 例：年龄 DataFunCon 2021

11. DataFunCon 2021 知识抽取框架从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱。链接数据结构化数据数据库图映射 D2R转换知识图谱 RDF三元组表格半结构化数据列表包装器时序信息 Infobox 信息抽取纯文本数据多元组事件

12. 实体抽取 DataFunCon 2021 北京时间10月25日，骑士后来居上，在主场以119-112击退公牛。地点时间组织中新社华盛顿10月24日电美国众议院三个委员会24日宣布将分别展开两项与希拉里·克林顿有关的调查，国会民主党人称这是共和党人试图转移注意力。人物

13. 关系抽取简介什么是关系抽取？ p 信息抽取 (Information Extraction)研究领域的任务之一 p 从文本中抽取出两个或者多个实体之间的语义关系举例：王健林谈儿子王思聪:我期望他稳重一点。父子 (王健林，王思聪) DataFunCon 2021

14. logo 企业级知识图谱构建的挑战和技术

15. 少样本关系抽取 DataFunCon 2021 实际场景中，由于数据长尾分布的特性以及人力标注成本高昂的原因，关系抽取方法往往面临某些类别的标注极度稀少的问题。目前该领域的研究多将少样本关系抽取建模为少样本单关系分类问题，这中设定过度简化了关系抽取任务的使用场景，尤其是文本中往往提及不止一条关系三元组。因此，我们需要研究一种方法能够使模型在少样本学习的场景中也能够进行多条三元组的抽取。 Tongtong Wu, Xi Xu, Ningyu Zhang, Guilin Qi, Yuan-Fang Li, Reza Haffari. From One to More: Few-shot Multiple Relation Extraction. Submitted

16. 少样本关系抽取挑战不均衡问题：少样本学习任务内样本不均衡； None-of-the-Above问题：测试集中出现训练集中未知的关系类型；多标签分类：同一实体对包含了多种关系 DataFunCon 2021

17. 少样本关系抽取 DataFunCon 2021 方法思想：利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系，进而解决NOTA 和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。

18. 少样本关系抽取方法思想：利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系，进而解决NOTA 和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。基于预训练模型进行实体及实体间上下文的编码学习 DataFunCon 2021

19. 少样本关系抽取方法思想：利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系，进而解决NOTA 和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。基于图卷积神经网络的实体关系建模，实体的表示为节点，上下文的表示为边。 DataFunCon 2021

20. 少样本关系抽取 DataFunCon 2021 方法思想：利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系，进而解决NOTA 和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。拼接实体对的表示作为三元组的表示，并基于支撑集构建每种关系的原型向量。

21. 少样本关系抽取 DataFunCon 2021 方法思想：利用多头注意力机制以及图神经网络建模句子中实体对间的不同关系，进而解决NOTA 和multi-label问题。通过基于分布的可调节界限adaptive margin, 解决任务内的样本不均衡问题。在计算基于距离的似然时考虑到数据集的分布，即样本的数量越多，大。 ? ! 越

22. 少样本关系抽取 DataFunCon 2021 实验结果 : 主实验我们在两个多关系抽取数据集上设计了两类少样本学习的设定，如表所示，在多关系少样本学习场景下,本文所提FOM方法在所提任务上取得了SOTA性能。

23. 少样本关系抽取 DataFunCon 2021 实验结果：消融实验我们在两个多关系抽取数据集上设计了两类少样本学习的设定，如表所示，在多关系少样本学习场景下,针对各个子问题所提出的机制均能够给模型带来一定的提升。

24. 增量关系抽取灾难性遗忘 DataFunCon 2021

25. 增量关系抽取顺序敏感性 DataFunCon 2021

26. 增量关系抽取我们的方法思想基于课程元学习的经验重演方法 Curriculum-meta Learning Tongtong Wu, Xuekai Li, Yuan-Fang Li, Gholamreza Haffari, Guilin Qi, Yujin Zhu, Guoqiang Xu: Curriculum-Meta Learning for Order-Robust Continual Relation Extraction. AAAI 2021: 10363-10369 DataFunCon 2021

27. DataFunCon 2021 增量关系抽取方法思想基于课程元学习的经验重演方法 Curriculum-meta Learning 每当一个新任务到达时，执行以下几步： 1 通过基于知识的课程控制器KB-C从记忆模块中按照一定的顺序挑选样本； 1 1

28. DataFunCon 2021 增量关系抽取方法思想基于课程元学习的经验重演方法 Curriculum-meta Learning 每当一个新任务到达时，执行以下几步： 2 按被选记忆样本的顺序复习已学习的关系类型； 2 2

29. DataFunCon 2021 增量关系抽取方法思想基于课程元学习的经验重演方法 Curriculum-meta Learning 每当一个新任务到达时，执行以下几步： 3. 学习当前任务中包含的关系类型； 3 3

30. DataFunCon 2021 增量关系抽取方法思想基于课程元学习的经验重演方法 Curriculum-meta Learning 每当一个新任务到达时，执行以下几步： 4. 从当前任务的训练样本中挑选少量样本并保存至记忆模块 4

31. 增量关系抽取实验结果：全局准确率 ??? ! : = ??? ",? !"#! 平均准确率 ??? % : = & ' ∑ ??? ",? $ ' ()& !"#! 误差区间 ??: = ? % × & * + 本文所提方法在取得了最高的准确率的同时取得了较小的误差区间，说明模型同时在灾难性遗忘与顺序敏感性等两个问题上达到了了SOTA。 DataFunCon 2021

32. 基于主动学习的关系标注与抽取 DataFunCon 2021 研究动机基于监督学习的关系抽取的问题：依赖于大量标注数据、业务落地成本高解决思路 - 少样本学习——提高对有限数据样本的利用效率 - 远程监督/半监督学习/主动学习/文本增强——数据增强，降低标注成本主动学习 - 通过计算机器学习过程中的指标（即模型预测错误的次数），获取较难分类的数据样本 - 人工对这些样本进行校对和审核，并将校对后数据重新用于机器学习模型的训练 - 提升机器学习模型的性能，并降低标注的数据量

33. 基于主动学习的关系标注与抽取方案思路 · 实体识别模型：使用通用数据集训练对待抽取文本进行实体识别人工进行实体配对，确定头尾实体 ·少样本关系抽取模型：主动学习技术使用通用数据集训练得到初始化参数提供少量已标注的专用关系数据进行训练并预测预测正确的数据加入专用关系库预测错误的数据人工校对，达到一定指标则对参数微调少样本关系抽取引入主动学习的部分

34. 基于主动学习的关系标注与抽取待抽取的文本篇章人工选择NER识别出的实体对模型关系抽取结果关系抽取系统运行示例

35. 知识图谱认知智能技术中台及产品全流程半自动化、人机协同的知识图谱构建、运维与分析平台多人协同标注 NLP模型平台图谱运维平台语义检索智能问答图谱算法API 知识图谱构建平台可视化关联探索用户画像，个性化智能推荐辅助决策医药健康标杆客户政企标杆客户

36. 知识图谱认知智能技术中台及产品基于知识图谱的半自动化运维的智能问答平台 • • • • • • • 用户意图精准识别，基于前沿的NLP和知识图谱技术；问答服务完整度高，问答机器人可整合在线客服系统，问询系统，提供整套解决方案；复杂问答场景灵活可配置，包括多轮问答、多媒体问答，任务式问答等；内容来源形式丰富，包括FAQ，知识库，知识图谱，接口，文档等；半自动化运维能力，标记运维和自动化测试，问答准确率保持稳定；用户闭环体验，支持知识定向推送，提升用户留存率；项目落地能力强，可少数据冷启动，

37. 总结与展望 • 领域知识图谱构建经常面临资源不足的问题 -标注数据缺乏，用户往往不愿意标注数据用于模型训练 -增量场景下模型训练会产生灾难性遗忘问题 • 解决低资源场景下图谱高效构建需要综合多种方法 -采用元学习解决少样本模型训练 -采用持续学习解决增量场景下模型训练的灾难性遗忘问题 -采用主动学习设计人机交互标注系统 • 未来展望 -研究基于百科知识的领域图谱构建技术—知识复用 -研究领域迁移的领域图谱构建技术—迁移学习

38. 柯基微信公众号 mwl@kgtdata.com gqi@seu.edu.cn Thank you!