知识图谱与图数据库

1. 图数据库与知识图谱李文杰 liwenjiehn@pku.edu.cn 1

2. 目录 1. 什么是知识图谱？ 2. 知识图谱研究的多个维度 3. 从人工智能和大数据的角度看待知识图谱 4. 我们的工作 5. 相关案例 2

3. Part 1 什么是知识图谱？ 3

4. 知识图谱 (Knowledge Graph) 2012年5月16日, Google发布“知识图谱”的新一代“智能”搜索功能。 4

5. 知识图谱 (Knowledge Graph) 本质上是基于图的语义网络，表示实体和实体之间的关系！ 5

6. 知识图谱 (Knowledge Graph) 什么是知识图谱？知识图谱本质上是基于图的语义网络，表示实体和实体之间的关系！ 6

7. Facebook Social Graph 7

8. Facebook Social Graph 2013年1月16日 Facebook Graph Search 产品发布会‐ ‐‐Mark Zuckerberg “My friends who live in Canada” 8

9. Facebook Social Graph “Photos of my friends who live in Canada” 9

10. Part 2 知识图谱研究的多个维度 10

11. 知识图谱的相关领域发展数据库 RDF数据库系统数据集成, 知识融合自然语言处理机器学习信息抽取语义解析知识图谱数据的知识表示（Graph Embedding）知识工程知识库构建基于规则的推理 11

12. 知识图谱与知识工程知识图谱是Web 和大数据时代的知识工程新的发展形态。知识工程的核心：知识库和推理引擎。 • 领域本体的构建：面向特定领域的形式化地对于共享概念体系的明确而又详细的说明 • 知识抽取：从海量的数据中通过信息抽取的方式获取知识 • 知识融合：通过对多个相关知识图谱的对⻬、关联和合并，使其称为一个有机的整体，以提供更全面知识传统知识工程 Vs.以知识图谱为代表的新一代知识工程 “Knowledge is the power in AI” ‐‐‐ Edward Albert Feigenbaum 12

13. 知识图谱数据模型  RDF 13

14. 知识图谱数据模型  RDFs 在RDF数据层的基础上引入模式层，定义类、属性、关系、属性的定义域与值域来描述与约束资源，构建最基本的类层次体系和属性体系，支持简单的上下位推理。 14

15. 知识图谱数据模型  本体语言 OWL 进一步扩展RDFS词汇，可声明类间互斥关系、属性的传递性等复杂语义，支持基于本体的自动推理，提供了一组合适web传播的描述逻辑的语法，对机器友好，但认知复杂性限制了工程应用。 15

16. 知识抽取知识抽取  知识获取的目标是从海量的文本数据中通过信息抽取的方式获取知识，其方法根据所处理的数据源的不同而不同。分为：  结构化数据  半结构化数据  非结构化文本数据  文本信息抽取：从非结构化文本数据中进行知识抽取  实体识别  实体消歧  关系抽取  事件抽取 16

17. 大规模知识抽取 Yago(Yet Another Great Ontology) Content Entities of public Interest Format TSV,RDF,XML,N3,Web Interface 2007年，由德国⻢普研究所发起 Sources Wikipedia, WordNet, Geonames 融合WordNet和Wikipedia： Main Strength Focus on Precision, geotemporal annotations,multilingual Precision 95% Technique Extraction from Wikipedia + matching with WordNet & Geonames + consistency checks Size Entities: 3 m (+ geonames ‐> 10m) Facts: 120m ( + geonames ‐> 460m) Relations: 100, Classes：200k, Languages: 200 License Creative Commons BY‐SA URL http://www.yago.com/ References [Suchanek, WWW 2007][Hoffart, WWW 2011] [deMelo CIKM 2010] • 从Wikipedia的结构中抽取信息 • 利用人工采样评估 • 超过1亿事实和100种关系 17

18. 大规模知识抽取 DBPedia Content Entities of public Interest Format RDF, API, SPARQL Sources Wikipedia, WordNet, YAGO 目标是构建一个社区，通过社区成员定义和撰 Main Strength Focus on coberage,interlinking with other data sets 写准确的抽取模板，进而从维基百科中抽取结 Technique Extraction from Wikipedia +manual supervision by the community 构信息，并将其发布到Web上。 Size Entities: 3.5 m (in manual taxonomy: 1.7m) Facts: 670m Attributes: 9k (manually defines: 1k) Manual Classes: 280 License CC‐BY‐SA & GNU FDL URL http://dbpedia.org References [Auer, ISWC 2007], [Bizer09, JWS 2009]] 2007年开放。社区通过人工的方式构建分类： • 280个类别 • 覆盖约50%的维基百科实体 18

19. 大规模知识抽取 Freebase Content Entities of public Information Format RDF, API Construction By the community Data import from public sources Sources Wikipedia, Libraries, WordNet, MusicBrainz… Main Strength Free and large 从Wikipedia和其他数据源(如 IMDB、 Size MusicBrainz)中导入知识 Facts: several: millions Entities: 20m License CC‐BY(Creative Commons Attribution) 核心思想： URL http://www.freebase.be/ 2007年Metaweb公司发布。 2010年被Google收购。大规模协同构建知识库。 • 在Wikipedia中，人们编辑文章 • 在Freebase中，人们编辑结构化知识 19

20. 知识图谱与自然语言处理自然语言处理和知识图谱研究是双向互动的关系。抽取知识自然语言处理知识图谱提升NLP任务的准确度 20

21. 知识图谱与自然语言处理信息抽取语义解析主要技术：语义解析就是将自然语言映射成机器可以表实体识别与抽取、实体消歧、关系抽取达的形式。趋势及挑战：主要技术： • 从封闭走向开放词义消歧、语义⻆色标注、指代消解等。 • 大规模信息抽取应用： • 深层次挖掘信息背后的语义（从抽取到理解） • 面向知识图谱的自然语言问答 • 聊天机器人等 21

22. 信息抽取实体识别：  命名实体识别的方法：  基于规则的实体识别方法基于命名实体词典的方法：采用字符串完全匹配或部分匹配的方式，从文本中找出与词典最相似的短语完成实体识别例：中文人名的识别规则示例：<姓氏><名字>，例如：姚明中文地名的识别规则示例：<名字部分><指示部分>，例如：北京市优点：规则简单缺点：需要构建词典和规则；性能受词典规模和质量的影响 22

23. 信息抽取实体识别：  命名实体识别的方法：  基于机器学习的实体识别方法利用预先标注好的语料训练模型，使模型学习到某个字或词作为命名实体组成部分的概率，进而计算一个候选字段作为命名实体的概率值。若大于某一阈值，则识别为命名实体。分为：最大熵模型(Maximum Entropy Model) 和条件随机场模型(Conditional Markov Random Field) 格拉斯哥大学位于苏格兰 B I I I I I O O B I I 23

24. 信息抽取关系抽取：自动识别实体之间具有的某种语义关系根据抽取文本的范围不同，分为  句子级关系抽取  语料（篇级）关系抽取  关系抽取任务的难点：  同一个关系可以具有多种不同的词汇表示方式  同一个短语或词可能表达不同的关系  同一对实体之间可能存在不止一种关系  需要结合上下文  关系有时在文本中找不到任何明确表示，隐含在文本中  关系抽取依赖词法、句法分析等基本的自然语言处理工具，但该工具性能并不高 24

25. 语义解析之语义搜索语义搜索 • 是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身，而是透过现象看本质，准确地捕捉到用户所输入语句后面的真正意图，并以此来进行搜索，从而更准确地向用户返回最符合其需求的搜索结果。语义搜索过程输入的问句进行解析，找出问句中的实体和关系，理解用户问句的含义，将用户在知识图谱中匹配查询语句，找出答案通过一定的形式将结果呈现到用户面前 25

26. 语义解析之知识问答智能问答的方法 1.基于信息检索的方法 • 首先利用中文分词、命名实体识别等自然语言处理工具找到问句中所涉及到的实体和关键词，然后去知识资源库中去进行检索，并通过打分模型对答案进行排序 2.基于语义解析的方法 • 将一个自然语言形式的问句，按照特定语言的语法规则，解析成语义表达式，将其转化为某种数据库的查询语言 26

27. 语义解析之知识问答知识图谱问答的两种主要方法框架对比 27

28. IBM Waston系统 Jeopardy “危险边缘” 2011 IBM Waston击败人类冠军 28

29. 知识图谱与数据管理知识图谱本质上是多关系图，通常用“实体”来表达图里的结点、用“关系”来表达图里的边。关系型数据库：实体与实体之间的关系通常都是利用外键来实现，对关系的查询需要大量join操作图数据库：图模型建模实体（结点）和实体之间的关系（边），在对关系的操作上有更高的性能 29

30. 基于关系的知识图谱存储管理三元组表：主谓宾三列的表 • • 优点：简单明了缺点：最大问题在于将知识图谱查询翻译为 SQL 查询后会产生三元组表的大量自连接操作 SPARQL SQL SELECT T1.object T2.object FROM T as T1, T as T2 WHERE T1.subject=T2.subject and T1.predicate=name and T2.predicate=birthdate 30

31. 基于关系的知识图谱存储管理属性表：属性相似的聚为一张表 • • • 优点：克服三元组自连接的问题缺点：一对多联系或多值属性存储问题、RDF的灵活性等代表：采用属性表存储方案的代表系统是 RDF 三元组库 Jena 垂直划分：以谓语划分三元组表 • • • 优点：克服属性表的空值多值问题缺点：大量属性表、删除代价大代表：采用垂直划分存储方案的代表数据库是 SW‐ Store 31

32. 原生知识图谱存储管理--RDF • RDF数据以及其上的结构化查询都可以视为图？name name ？p birthDate ？bd 回答RDF数据上SPARQL 查询 == 子图匹配 • 代表性系统：利用子图匹配回答面向RDF知识图谱的 SPARQL查询，gStore系统 [ Lei Zou, et al., gStore: Answering SPARQL Queries Via Subgraph Matching, 32 VLDB, 2011 ]

33. 原生知识图谱存储管理--属性图 33

34. 知识图谱与图数据库 34

35. 知识图谱与机器学习知识表示学习： • 背景：基于网络形式的知识表示存在数据稀疏问题和计算效率问题。 • 知识表示学习（representation learning）：主要是面向知识图谱中的实体和关系进行表示学习，使用建模方法将实体和向量表示在低维稠密向量空间中，然后进行计算和推理。 • 优点：显著提升计算效率，有效缓解数据稀疏，实现异质信息融合。 • 应用：知识图谱补全、相似度计算、关系抽取、自动问答、实体链指 35

36. 知识图谱与机器学习知识表示学习： • 举例：知识表示代表模型：TransE [Bordes et al., NIPS 13]。 • 对每个事实(Subject, Predicate, Object)，将其中的predicate作为从subject到object的翻译操作。 • 每个Subject/Predicate/Object，都映射成一个多维向量 • 优化目标：S+P=O S P O China Capital Beijing Canada Capital Ottawa …… …… …… Beijing − China ≈ =Capital Ottawa − Canada 36

37. 知识图谱与机器学习图表示学习用于“自然语言问答”： 37

38. Part 3 从人工智能、大数据的角度看待 “知识图谱” 38

39. 1950-1970：人工智能诞生 1956年达特茅斯会议，提出“人工智能(Artificial Intelligence,AI )”概念。 “用机器来模仿人类学习以及其他方面的智能” “上古”流派： • 符号主义（Symbolism） • 连接主义（Connectionism） “人工智能来了，再过十年机器就要超越人类了！” 1956, 达特茅斯学院 39

40. 符号主义符号主义(symbolicism)，又称为逻辑主义(logicism)、心理学派(psychologism)或计算机学派 (computerism)，其主要原理为认知过程就是在符号表示上的一种运算。知识图谱起源于符号主义 • 代表人物：小明认识自行⻋O： O(a,b,c,d,e) d(坐垫) a(⻋把) e(⻋架) b(⻋胎) Allen Newell Herbert A.Simon 联合创造“The General Problem Solver”(通用问题求解程序) c(脚踏) 40

41. 符号主义发展历史专家系统 Web2.0 知识库+推理机=智能知识工程框架、脚本群体智慧语义Web RDF、OWL 人工智能诞生 Web1.0 启发式算法 1950-1970 知识图谱人工构建大规模知识库 HTML、XML 本体概念 1970-1990 1990-2000 Web3.0 大规模知识获取知识图谱工业应用 2000-2006 2006至今 41

42. 连接主义连接主义(connectionism)，又称为仿生学派(bionicsism)或生理学派(physiologism)，其主要原理为智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果。当前典型研究：深度学习、深度神经网络 • 小明学骑自行⻋：经过⻓时间练习，小明终于学会了！却说不清楚“到底该怎样”骑？代表人物： Frank Rosenblatt，提出感知器（1957） John Hopfield，提出Hopfield神经网络（1982） 42

43. Wikipedia 开放的在线多语言百科全书 • 2001年开始 • 以众包（crowdsource）的方式构建主要特点 • 数据源质量高 • 500万概念 • 富含丰富语义结构的文档： • Infobox • Table • List • category 成为大规模构建知识图谱的重要数据基础。 43

44. 语义Web Tim Berners-Lee于2000年提出语义Web： “I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A "Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-to- day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking Tim Berners-Lee 2016年图灵奖得主万维网、语义网之父 to machines. The "intelligent agents" people have touted for ages will finally materialize.” “我有一个梦想，网络中的所有计算机能够分析网络中的数据，包括内容、链接、人与计算机之间的往来。语义Web会让这一切成为可能，一旦该网络出现，日常的交易机制、事务以及我们的日常生后都会由机器与机器之间的沟通来处理。人们吹嘘多年的“智能代理”将最终实现。” 44

45. 知识图谱与人工智能人工智能需要机器智能，特别是认知智能，认知智能依赖知识图谱计算智能感知智能快速计算和记忆存储能力视觉、听觉、触觉等感知能力   规则明确特定领域    认知智能能理解会思考语音图像视频    理解推理解释  认知智能的理解、推理、解释任务不仅需要数据，更需要知识背景  知识图谱是知识的图谱表示，这种知识表示方式适合理解、推理、解释  知识图谱是实现认知智能的关键技术，是实现机器认知智能的使能器 45

46. 知识图谱与人工智能知识图谱脱胎于符号主义；但是和连接主义的结合是目前的重要研究方向（例如知识图谱的表示学习等）。符合主义知识图谱图神经网络连接主义 46

47. 知识图谱与大数据大数据的特点： “世界是普遍联系的整体, 任何事物之间都是相互联系的”‐‐‐‐‐‐ ⻢克思《辩证唯物主义》多样化（variety）规模大 (volume) 速度化 (velocity) “知识图谱”是面向关联分析的大数据模型 47

48. 知识图谱与大数据 RDF图： gStore，Virtuoso 属性图： Neo4J, janusgraph 图数据库 TransE, GCN 等模型图机器学习知识图谱图挖掘算法图计算系统点中心模型系统： Pregel,GraphLab, Pagerank, Simrank, 社区发现，影响力传播 48

49. Part 4 我们的工作 49

50. 我们的研发路线图 gAnswer: 图匹配驱动的RDF知识图谱自然语言检索平台 gStore‐D: 分布式RDF图数据管理系统 gStore：基于子图匹配的SPARQL查询系统研究主题子图模式匹配查询建模基于结构感知的图数据库索引和子图匹配查询优化理论 50

51. 我们的技术路线图我们的研发思路是从知识图谱管理切入，向知识图谱构建和知识图谱应用延伸，发展路线为“中间切入，两端开花”的研发路线 51

52. 产品生态 52

53. gStore 项目特点：基于子图匹配的图数据查询和优化策略，单机能支持50亿规模的图数据的存储和查询，以及更新等。代码：除了SPARQL语法解析器外均为独立开发的，目前有14万行C++，完成自主知识产权；目前是版本v 0.9.1 . 项目主⻚：gstore.cn 开源地址：https://github.com/pkumod/gStore 【Lei Zou, Jinghui Mo, Lei Chen, M. Tamer Özsu, Dongyan Zhao: gStore: Answering SPARQL Queries via Subgraph Matching. Proc. VLDB Endow. 4(8): 482‐493 (2011)】 53

54. gBuilder 项目特点：知识图谱构建的一体化平台，包括Schema设计，结构化和非结构数据抽取，融合多种文本抽取的算法模型，以及抽取模型NAS搜索等。【Bingcong Xue, Sen Hu, Lei Zou, Jiashu Cheng: The Value of Paraphrase for Knowledge Base Predicates. AAAI 2020: 9346‐9353】 *图为非结构化数据知识抽取 54

55. gAnswer 项目特点：基于子图匹配的知识图谱的自然语言问答方法开源地址：https://github.com/pkumod/gAnswer 2018年，gAnswer 获得欧盟举办的知识图谱自然语言问答比赛QALD‐9，获得第一名。 55

56. gStore官网：在线gStore交流平台（www.gstore.cn）

57. gStore Workbench：gStore可视化管理工具

58. gStore云平台：“开箱即用”的gStore服务 >1000名的云端gStore用户，活跃用户近800名

59. gStore分布式系统：支持百亿规模分布式部署 高扩展性：平台基于Master‐ Slave架构，通过增加Slave节点实现动态扩展。 多模态数据划分策略：平台内置了基于随机划分和指定划分的4种数据划分策略和对应的查询计划分解策略 高性能：第三方权威测评机构测试结果表明在100亿规模 RDF数据环境下平均查询时间为1.79秒

60. 自主可控国产化：与国产化CPU和操作系统适配赋能国产自主可控的计算机体系架构；夯实我国在“知识图谱”产业的自主系统软件！

61. Part 5 相关案例 61

62. 应用案例-金融科技与深圳证券信息有限公司、武汉大学大数据研究院合作多层股权结构知识关联查询股权关联资本系智能金融服务 >4千万家工商注册企业； >10亿关联关系金融知识图谱项目知识图谱管理 RDF三元组图数据库实体属信息抽取性关系数据清洗实体消知识融合歧实体链接工商注册企业数据商业银行股权数据关系型数据库时间机金融本体构空间互联网开源数据知识图谱构建数据收集系统架构多层股权查询示例

63. 应用案例-金融科技总数10亿条三元组：超过4千万家企业数据、400多家商业银行数据以及互联网数据知识关联查询：金融实体查询、多层股权查询、金融实体关联分析⻛险分析：⻛险识别、资本系分析

64. 应用案例-金融科技知识关联查询：多层股权查询

65. 应用案例-金融科技资本系分析

66. 应用案例-政府大数据自然人数据          婚姻信息登记车辆购置信息登记生育保健服务证明领取生育保险金出生医学证明户口申报登记疫苗接种登记办理新生儿保险办理收养出生医疗养老  领取养老金  医保信息  电子病历婚姻生育住房  入学信息  考试信息  毕业信息          死亡证明注销户口注销社保殡葬公墓遗产继承办理公积金房屋产权登记变更土地使用权登记、变更物业信息教育就业死亡

67. 应用案例-政府大数据与中科大智慧城市研究院合作基于知识图谱的政府大数据融合与挖掘系统架构亲属关系检索（用于⺠政和司法）

68. 应用案例-智慧纪检某县智慧纪检平台拟针对当前纪检工作现有办案方式简单、不全面，单位党员个人工作生活方方面面涉及纪检有关的海量数据无法被有效分析、精准建模、用于纪律检查等问题，运用大数据智能采集汇聚储存、大数据应用、立体化纪检办案模型等关键技术，着力解决县纪委进行纪检工作中数据采、管、用中的瓶颈问题，构建覆盖全员、立体、实时的县纪检大数据体系。基于大数据统计分析，改进完善对党员纪检考核方法，实现党员干部纪检工作的智能化、精准化和科学化，推动纪检工作更加常态、更加深入、更高水平的科学运行和发展。 68

69. 应用案例-智慧纪检：干部廉洁画像 69

70. 应用案例-智慧纪检：社会关系分析 70

71. 应用案例-智慧纪检：话单分析 71

72. 应用案例-智慧医疗互联网访问接口分布式软件架构服务层智能诊疗智能搜索机器学习平台门店访问接口智能问答数据挖掘平台智能推荐智慧营运商业智能平台 …… …… 知识库管理体系反爬虫权限管理医药大知识库 (知识图谱) 数据层医药说明临床诊疗患者体征网上问诊存储管理书籍文献互联网医学影像图像处理框架自然语言处理框架医院自营产品知识更新知识搜索 …… 数据交换引擎分布式网络爬虫数据支撑内部系统访问接口内部系统

73. 应用案例-智慧医疗科室病理阶段 …… 疾病演变疾病症状同义禁忌冲突人群 …… 人群包含程度 …… 禁忌适用于性别定义症状相似症状疾病年龄伴随表征表征相关 …… 部位属于疾病定义正反位置适用于禁忌药品药品辅助规格药品剂型厂家 ……

74. 应用案例-智慧医疗

75. 应用案例-智慧医疗疾病科室智能问答疾病症状智能问答疾病并发症智能问答健康饮⻝智能问答 75

76. 应用案例-人工智能与深圳狗尾草智能科技有限公司合作智能问答机器人公子小白系统架构

77. 应用案例-人工智能智能问答机器人公子小白

78. 应用案例-气象交通高速公路运行安全直接关系到人⺠群众的生命财产安全，高速公路运行安全与气象息息相关，尤其是高海拔、特殊地理位置的路段，往往会出现异常情况（如团雾、路面结冰等），需要解决如下问题： 1. 什么情况下会出现这种异常道路状况？ 2. 异常道路状况可能产生的影响？ 3. 异常道路状况发生后，应该采取什么措施？可能的效果如何？前期准备： 1. 高速公路异常状况易发路段部署气象观测点，实时采集气象数据（如温度、湿度、⻛速、⻛向、降水等）； 2. 历史因天气的异常道路状况事故报告材料等。 78

79. 应用案例-气象交通

80. 应用案例-公安知识图谱 知识图谱构建  多领域海量数据：涵盖亲属、住宿、航班、火⻋、⻋辆、社交等多领域数据，数据规模上百亿  “数据”转化为“知识”：将存储在关系型数据库中的数据智能、高效地转化为知识图谱数据 知识图谱应用  多维度知识探索：从“同程、同宿、同案件”等20 多个维度进行知识探索和知识推理  隐含关系挖掘：从交通出行、网吧上网、出入境等部⻔和系统中获取数据，发现人物的“同行，同上网，同出国”等隐含关联关系。

81. THANK YOU 图谱学苑公众号 81