知识图谱与图数据库
如果无法正常显示,请先停止浏览器的去广告插件。
1. 图 数据 库 与知 识图谱
李文杰
liwenjiehn@pku.edu.cn
1
2. 目 录
1. 什么是知识图谱?
2. 知识图谱研究的多个维度
3. 从人工智能和大数据的角度看待知识图谱
4. 我们的工作
5. 相关案例
2
3. Part 1
什么是知识图谱?
3
4. 知识图谱 (Knowledge Graph)
2012年5月16日, Google发布“知识图谱”的新一代“智能”搜索功能。
4
5. 知识图谱 (Knowledge Graph)
本质上是基于图的语义网络,表示实体和实体之间的关系!
5
6. 知识图谱 (Knowledge Graph)
什么是知识图谱?
知识图谱本质上是基于图的语义网络,表示实体和实体之间的关系!
6
7. Facebook Social Graph
7
8. Facebook Social Graph
2013年1月16日 Facebook Graph Search 产品发布会‐
‐‐Mark Zuckerberg
“My friends who live in Canada”
8
9. Facebook Social Graph
“Photos of my friends who live in Canada”
9
10. Part 2
知识图谱研究的多个维度
10
11. 知识图谱的相关领域发展
数据库
RDF数据库系统
数据集成, 知识融合
自然语言处理 机器学习
信息抽取
语义解析 知识图谱数据的知识表示
(Graph Embedding)
知识工程
知识库构建
基于规则的推理
11
12. 知识图谱与知识工程
知识图谱是Web 和大数据时代的知识工程新的发展形态。知识工程的核心:知识库和推理引擎。
• 领域本体的构建:面向特定领域的形式化地对于共享概念体系的明确而又详细的说明
• 知识抽取:从海量的数据中通过信息抽取的方式获取知识
• 知识融合:通过对多个相关知识图谱的对⻬、关联和合并,使其称为一个有机的整体,以提供更
全面知识
传统知识工程 Vs.以知识图谱为代表的新一代知识工程
“Knowledge is the power in AI” ‐‐‐ Edward Albert Feigenbaum
12
13. 知识图谱数据模型
RDF
13
14. 知识图谱数据模型
RDFs
在RDF数据层的基础上引入模式层,定义类、属性、关系、属性的定义域与值域来描述
与约束资源,构建最基本的类层次体系和属性体系,支持简单的上下位推理。
14
15. 知识图谱数据模型
本体语言 OWL
进一步扩展RDFS词汇,可声明类间互斥关系、属性的传递性等复杂语义,支持基于本体
的自动推理,提供了一组合适web传播的描述逻辑的语法,对机器友好,但认知复杂性
限制了工程应用。
15
16. 知识抽取
知识抽取
知识获取的目标是从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理的
数据源的不同而不同。分为:
结构化数据
半结构化数据
非结构化文本数据
文本信息抽取:从非结构化文本数据中进行知识抽取
实体识别
实体消歧
关系抽取
事件抽取
16
17. 大规模知识抽取
Yago(Yet Another Great Ontology)
Content Entities of public Interest
Format TSV,RDF,XML,N3,Web Interface
2007年,由德国⻢普研究所发起 Sources Wikipedia, WordNet, Geonames
融合WordNet和Wikipedia: Main Strength Focus on Precision, geotemporal annotations,multilingual
Precision 95%
Technique Extraction from Wikipedia + matching with WordNet & Geonames +
consistency checks
Size Entities: 3 m (+ geonames ‐> 10m)
Facts: 120m ( + geonames ‐> 460m)
Relations: 100, Classes:200k, Languages: 200
License Creative Commons BY‐SA
URL http://www.yago.com/
References [Suchanek, WWW 2007][Hoffart, WWW 2011]
[deMelo CIKM 2010]
• 从Wikipedia的结构中抽取信息
• 利用人工采样评估
•
超过1亿事实和100种关系
17
18. 大规模知识抽取
DBPedia
Content Entities of public Interest
Format RDF, API, SPARQL
Sources Wikipedia, WordNet, YAGO
目标是构建一个社区,通过社区成员定义和撰 Main Strength Focus on coberage,interlinking with other data sets
写准确的抽取模板,进而从维基百科中抽取结 Technique Extraction from Wikipedia +manual supervision by the community
构信息,并将其发布到Web上。 Size Entities: 3.5 m (in manual taxonomy: 1.7m)
Facts: 670m
Attributes: 9k (manually defines: 1k)
Manual Classes: 280
License CC‐BY‐SA & GNU FDL
URL http://dbpedia.org
References [Auer, ISWC 2007], [Bizer09, JWS 2009]]
2007年开放。
社区通过人工的方式构建分类:
• 280个类别
• 覆盖约50%的维基百科实体
18
19. 大规模知识抽取
Freebase
Content Entities of public Information
Format RDF, API
Construction By the community
Data import from public sources
Sources Wikipedia, Libraries, WordNet, MusicBrainz…
Main Strength Free and large
从Wikipedia和其他数据源(如 IMDB、 Size MusicBrainz)中导入知识 Facts: several: millions
Entities: 20m
License CC‐BY(Creative Commons Attribution)
核心思想: URL http://www.freebase.be/
2007年Metaweb公司发布。
2010年被Google收购。
大规模协同构建知识库。
• 在Wikipedia中,人们编辑文章
• 在Freebase中,人们编辑结构化知识
19
20. 知识图谱与自然语言处理
自然语言处理和知识图谱研究是双向互动的关系。
抽取知识
自然语言
处理
知识
图谱
提升NLP任务的准确度
20
21. 知识图谱与自然语言处理
信息抽取
语义解析
主要技术: 语义解析就是将自然语言映射成机器可以表
实体识别与抽取、实体消歧、关系抽取 达的形式。
趋势及挑战: 主要技术:
• 从封闭走向开放 词义消歧、语义⻆色标注、指代消解等。
• 大规模信息抽取 应用:
• 深层次挖掘信息背后的语义(从抽取到理解) • 面向知识图谱的自然语言问答
• 聊天机器人等
21
22. 信息抽取
实体识别:
命名实体识别的方法:
基于规则的实体识别方法
基于命名实体词典的方法:采用字符串完全匹配或部分匹配的方式,从文本中找出与词典最相
似的短语完成实体识别
例:中文人名的识别规则示例:<姓氏><名字>,例如:姚明
中文地名的识别规则示例:<名字部分><指示部分>,例如:北京市
优点:规则简单
缺点:需要构建词典和规则;性能受词典规模和质量的影响
22
23. 信息抽取
实体识别:
命名实体识别的方法:
基于机器学习的实体识别方法
利用预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进
而计算一个候选字段作为命名实体的概率值。若大于某一阈值,则识别为命名实体。
分为:最大熵模型(Maximum Entropy Model) 和条件随机场模型(Conditional Markov Random
Field)
格 拉 斯 哥 大 学 位 于 苏 格 兰
B I I I I I O O B I I
23
24. 信息抽取
关系抽取:自动识别实体之间具有的某种语义关系
根据抽取文本的范围不同,分为
句子级关系抽取
语料(篇级)关系抽取
关系抽取任务的难点:
同一个关系可以具有多种不同的词汇表示方式
同一个短语或词可能表达不同的关系
同一对实体之间可能存在不止一种关系
需要结合上下文
关系有时在文本中找不到任何明确表示,隐含在文本中
关系抽取依赖词法、句法分析等基本的自然语言处理工具,但该工具性能并不高
24
25. 语义解析之语义搜索
语义搜索
•
是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并
以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
语义搜索过程
输入的问句进行解析,找出问句
中的实体和关系,理解用户问句
的含义,
将用户在知识图谱中匹配查询
语句,找出答案
通过一定的形式将结果呈现
到用户面前
25
26. 语义解析之知识问答
智能问答的方法
1.基于信息检索的方法
•
首先利用中文分词、命名实体识别等自然语言处理工具找到问句中所涉及到的实体和关键词,然后去知识资源库中去进行检索, 并通过
打分模型对答案进行排序
2.基于语义解析的方法
•
将一个自然语言形式的问句,按照特定语言的语法规则,解析成语义表达式,将其转化为某种数据库的查询语言
26
27. 语义解析之知识问答
知识图谱问答的两种主要方法框架对比
27
28. IBM Waston系统
Jeopardy “危险边缘”
2011 IBM Waston击败人类冠军
28
29. 知识图谱与数据管理
知识图谱本质上是多关系图,通常用“实体”来表达图里的结点、用“关系”来表达图里的边。
关系型数据库:实体与实体之间的关系通常都是利用外键来实现,对关系的查询需要大量join操作
图数据库:图模型建模实体(结点)和实体之间的关系(边),在对关系的操作上有更高的性能
29
30. 基于关系的知识图谱存储管理
三元组表:主谓宾三列的表
•
•
优点:简单明了
缺点:最大问题在于将知识图谱查询翻译为 SQL 查询
后会产生三元组表的大量自连接操作
SPARQL
SQL
SELECT T1.object T2.object
FROM T as T1, T as T2
WHERE T1.subject=T2.subject
and T1.predicate=name and
T2.predicate=birthdate
30
31. 基于关系的知识图谱存储管理
属性表:属性相似的聚为一张表
•
•
•
优点:克服三元组自连接的问题
缺点:一对多联系或多值属性存储问题 、RDF的灵活性
等
代表:采用属性表存储方案的代表系统是 RDF 三元组
库 Jena
垂直划分:以谓语划分三元组表
•
•
•
优点:克服属性表的空值多值问题
缺点:大量属性表、删除代价大
代表:采用垂直划分存储方案的代表数据库是 SW‐
Store
31
32. 原生知识图谱存储管理--RDF
•
RDF数据以及其上的结构化查询都可以视为图
?name
name
?p
birthDate
?bd
回答RDF数据上SPARQL
查询 == 子图匹配
• 代表性系统:利用子图匹配回答面向RDF知识图谱的
SPARQL查询,gStore系统
[ Lei Zou, et al., gStore: Answering SPARQL Queries Via Subgraph Matching,
32
VLDB, 2011 ]
33. 原生知识图谱存储管理--属性图
33
34. 知识图谱与图数据库
34
35. 知识图谱与机器学习
知识表示学习:
• 背景:基于网络形式的知识表示存在数据稀疏问题和计算效率问题。
• 知识表示学习(representation learning):主要是面向知识图谱中的实体和关系进行表示学
习,使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。
• 优点:显著提升计算效率,有效缓解数据稀疏,实现异质信息融合。
• 应用:知识图谱补全、相似度计算、关系抽取、自动问答、实体链指
35
36. 知识图谱与机器学习
知识表示学习:
• 举例: 知识表示代表模型:TransE [Bordes et al., NIPS 13]。
• 对每个事实(Subject, Predicate, Object),将其中的predicate作为从subject到object的翻译操作。
• 每个Subject/Predicate/Object,都映射成一个多维向量
• 优化目标:S+P=O
S P O
China Capital Beijing
Canada Capital Ottawa
…… …… ……
Beijing − China
≈
=Capital
Ottawa − Canada
36
37. 知识图谱与机器学习
图表示学习用于“自然语言问答”:
37
38. Part 3
从人工智能、大数据的角度看待
“知识图谱”
38
39. 1950-1970:人工智能诞生
1956年达特茅斯会议,提出“人工智能(Artificial Intelligence,AI )”概念。
“用机器来模仿人类学习以及其他方面的智能”
“上古”流派:
• 符号主义(Symbolism)
• 连接主义(Connectionism)
“人工智能来了,再过十年机器就要超越人类了!”
1956, 达特茅斯学院
39
40. 符号主义
符号主义(symbolicism),又称为逻辑主义(logicism)、心理学派(psychologism)或计算机学派
(computerism),其主要原理为认知过程就是在符号表示上的一种运算。
知识图谱起源于符号主义
•
代表人物:
小明认识自行⻋O:
O(a,b,c,d,e)
d(坐垫)
a(⻋把)
e(⻋架)
b(⻋胎)
Allen Newell
Herbert A.Simon
联合创造“The General Problem Solver”(通用问题求解程序)
c(脚踏)
40
41. 符号主义发展历史
专家系统 Web2.0
知识库+推理机=智能
知识工程
框架、脚本 群体智慧
语义Web
RDF、OWL
人工智能诞生
Web1.0
启发式算法
1950-1970
知识图谱
人工构建大规模知识
库
HTML、XML
本体概念
1970-1990
1990-2000
Web3.0
大规模知识获取
知识图谱工业应用
2000-2006
2006至今
41
42. 连接主义
连接主义(connectionism),又称为仿生学派(bionicsism)或生理学派(physiologism),其主要
原理为智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果。
当前典型研究:深度学习、深度神经网络
•
小明学骑自行⻋:
经过⻓时间练习,小明终于学会了!
却说不清楚“到底该怎样”骑?
代表人物:
Frank Rosenblatt,提出感
知器(1957)
John Hopfield,
提出Hopfield神经网络(1982)
42
43. Wikipedia
开放的在线多语言百科全书
• 2001年开始
• 以众包(crowdsource)的方式构建
主要特点
• 数据源质量高
• 500万概念
• 富含丰富语义结构的文档:
• Infobox
• Table
• List
• category
成为大规模构建知识图谱的重要数据基础。
43
44. 语义Web
Tim Berners-Lee于2000年提出语义Web:
“I have a dream for the Web [in which computers] become capable of analyzing all the
data on the Web – the content, links, and transactions between people and computers. A
"Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-to-
day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking
Tim Berners-Lee
2016年图灵奖得主
万维网、语义网之父
to machines. The "intelligent agents" people have touted for ages will finally materialize.”
“我有一个梦想,网络中的所有计算机能够分析网络中的数据,包括内容、链接、人与计算机之间的往来。语
义Web会让这一切成为可能,一旦该网络出现,日常的交易机制、事务以及我们的日常生后都会由机器与机
器之间的沟通来处理。人们吹嘘多年的“智能代理”将最终实现。”
44
45. 知识图谱与人工智能
人工智能需要机器智能,特别是认知智能,认知智能依赖知识图谱
计算智能 感知智能
快速计算和记忆存储能力 视觉、听觉、触觉等感知能力
规则明确
特定领域
认知智能
能理解会思考
语音
图像
视频
理解
推理
解释
认知智能的理解、推理、解释任务不仅需要数据,更需要知识背景
知识图谱是知识的图谱表示,这种知识表示方式适合理解、推理、解释
知识图谱是实现认知智能的关键技术,是实现机器认知智能的使能器
45
46. 知识图谱与人工智能
知识图谱脱胎于符号主义;但是和连接主义的结合是目前的重要研究方向
(例如知识图谱的表示学习等)。
符合
主义
知识图谱
图神经网
络
连接主义
46
47. 知识图谱与大数据
大数据的特点:
“世界是普遍联系的整体, 任何事物之间都
是相互联系的”‐‐‐‐‐‐ ⻢克思《辩证唯物主义》
多样化(variety)
规模大 (volume)
速度化 (velocity)
“知识图谱”是面向关联分析的大数据模型
47
48. 知识图谱与大数据
RDF图: gStore,Virtuoso
属性图: Neo4J, janusgraph
图数据
库
TransE, GCN
等模型
图机器
学习
知识
图谱
图挖掘
算法
图计算
系统
点中心模型系统:
Pregel,GraphLab,
Pagerank, Simrank,
社区发现,影响力传播
48
49. Part 4
我们的工作
49
50. 我们的研发路线图
gAnswer: 图匹配驱动的RDF知识图谱自然
语言检索平台
gStore‐D: 分布式RDF图数据管理系统
gStore:基于子图匹配的SPARQL查询系统
研究
主题
子图模式
匹配查询
建模
基于结构感知的图
数据库索引和子图
匹配查询优化理论
50
51. 我们的技术路线图
我们的研发思路是从知识图谱管理切入,向知识图谱构建和知识图谱应用延伸,
发展路线为“中间切入,两端开花”的研发路线
51
52. 产品生态
52
53. gStore
项目特点:基于子图匹配的图数据查询和优化策略,单机能支持50亿规模的图数据的存储和查询,
以及更新等。
代码:除了SPARQL语法解析器外均为独立开发的,目前有14万行C++,完成自主知
识产权;目前是版本v 0.9.1 .
项目主⻚:gstore.cn
开源地址:https://github.com/pkumod/gStore
【Lei Zou, Jinghui Mo, Lei Chen, M. Tamer Özsu, Dongyan Zhao: gStore: Answering SPARQL Queries via Subgraph
Matching. Proc. VLDB Endow. 4(8): 482‐493 (2011)】
53
54. gBuilder
项目特点:知识图谱构建的一体化平台,包括Schema设计,结构化和非结构数据抽取,融合多种
文本抽取的算法模型,以及抽取模型NAS搜索等。
【Bingcong Xue, Sen Hu, Lei Zou, Jiashu Cheng: The Value of
Paraphrase for Knowledge Base Predicates. AAAI 2020: 9346‐9353】
*图为非结构化数据知识抽取
54
55. gAnswer
项目特点:基于子图匹配的知识图谱的自然语言问答方法
开源地址:https://github.com/pkumod/gAnswer
2018年,gAnswer 获得欧盟举办的知识图谱
自然语言问答比赛QALD‐9,获得第一名。
55
56. gStore官网:在线gStore交流平台(www.gstore.cn)
57. gStore Workbench:gStore可视化管理工具
58. gStore云平台:“开箱即用”的gStore服务
>1000名的云端gStore用户,活
跃用户近800名
59. gStore分布式系统:支持百亿规模分布式部署
高扩展性:平台基于Master‐
Slave架构,通过增加Slave节点
实现动态扩展。
多模态数据划分策略:平台
内置了基于随机划分和指定划
分的4种数据划分策略和对应的
查询计划分解策略
高性能:第三方权威测评机
构测试结果表明在100亿规模
RDF数据环境下平均查询时间
为1.79秒
60. 自主可控国产化:与国产化CPU和操作系统适配
赋能国产自主可控的计算机体系架构;夯实我国在“知识图谱”产业的自主系统软件!
61. Part 5
相关案例
61
62. 应用案例-金融科技
与深圳证券信息有限公司、武汉大学大数据研究院合作
多层股权结构
知识关联查询
股权关联
资本系
智能金融服务
>4千万家工商注册企业;
>10亿关联关系
金融知识图谱项目
知识图谱管理
RDF三元组
图数据库
实
体
属
信息抽取
性
关
系
数据清
洗
实体消
知识融合 歧
实体链
接
工商注册企业数据
商业银行股权数据
关系型数据库
时
间
机
金融本体
构
空
间
互联网开源数据
知识图谱构建
数据收集
系统架构
多层股权查询示例
63. 应用案例-金融科技
总数10亿条三元组:超过4千万家企业数据、400多家商业银行数据以及互联网数据
知识关联查询: 金融实体查询、多层股权查询、金融实体关联分析
⻛险分析:
⻛险识别、资本系分析
64. 应用案例-金融科技
知识关联查询:多层股权查询
65. 应用案例-金融科技
资本系分析
66. 应用案例-政府大数据
自然人数据
婚姻信息登记
车辆购置信息登记
生育保健服务证明
领取生育保险金
出生医学证明
户口申报登记
疫苗接种登记
办理新生儿保险
办理收养
出
生
医疗养老
领取养老金
医保信息
电子病历
婚姻生育
住
房
入学信息
考试信息
毕业信息
死亡证明
注销户口
注销社保
殡葬公墓
遗产继承
办理公积金
房屋产权登记变更
土地使用权登记、变更
物业信息
教育
就业
死
亡
67. 应用案例-政府大数据
与中科大智慧城市研究院合作
基于知识图谱的
政府大数据融合与挖
掘
系统架构
亲属关系检索(用于⺠政和司法)
68. 应用案例-智慧纪检
某县智慧纪检平台拟针对当前纪检工作现有办案
方式简单、不全面,单位党员个人工作生活方方
面面涉及纪检有关的海量数据无法被有效分析、
精准建模、用于纪律检查等问题,运用大数据智
能采集汇聚储存、大数据应用、立体化纪检办案
模型等关键技术,着力解决县纪委进行纪检工作
中数据采、管、用中的瓶颈问题,构建覆盖全员、
立体、实时的县纪检大数据体系。基于大数据统
计分析,改进完善对党员纪检考核方法,实现党
员干部纪检工作的智能化、精准化和科学化,推
动纪检工作更加常态、更加深入、更高水平的科
学运行和发展。
68
69. 应用案例-智慧纪检:干部廉洁画像
69
70. 应用案例-智慧纪检:社会关系分析
70
71. 应用案例-智慧纪检:话单分析
71
72. 应用案例-智慧医疗
互联网访问接口
分
布
式
软
件
架
构
服
务
层
智能诊
疗
智能搜
索
机器学习平台
门店访问接口
智能问
答
数据挖掘平
台
智能推
荐
智慧营
运
商业智能平
台
……
……
知识
库管
理体
系
反爬虫
权限管理
医药大知识库 (知识图谱)
数
据
层
医药说
明
临床诊
疗
患者体
征
网上问
诊
存储管理
书籍文
献
互联网
医学影
像
图像处理框
架
自然语言处理框架
医院
自营产品
知识更新
知识搜索
……
数据交换引擎
分布式网络爬虫
数据
支撑
内部系统访问接口
内部系统
73. 应用案例-智慧医疗
科室
病
理
阶
段
……
疾病
演
变
疾病
症状
同
义
禁
忌
冲
突
人群
……
人群
包
含
程
度
……
禁
忌
适用于
性
别
定
义
症状
相
似
症状
疾病
年
龄
伴
随
表
征
表
征
相
关
……
部位
属
于
疾病
定
义
正
反
位
置
适用于
禁
忌
药品
药品
辅
助
规
格
药品
剂
型
厂
家
……
74. 应用案例-智慧医疗
75. 应用案例-智慧医疗
疾病科室智能问答 疾病症状智能问答
疾病并发症智能问答 健康饮⻝智能问答
75
76. 应用案例-人工智能
与深圳狗尾草智能科技有限公司合作
智能问答机器人
公子小白
系统架构
77. 应用案例-人工智能
智能问答机器人
公子小白
78. 应用案例-气象交通
高速公路运行安全直接关系到人⺠群众的生命财产安全,
高速公路运行安全与气象息息相关,尤其是高海拔、特殊地
理位置的路段,往往会出现异常情况(如团雾、路面结冰
等),需要解决如下问题:
1. 什么情况下会出现这种异常道路状况?
2. 异常道路状况可能产生的影响?
3. 异常道路状况发生后,应该采取什么措施?可能的效果
如何?
前期准备:
1. 高速公路异常状况易发路段部署气象观测点,实时采集
气象数据(如温度、湿度、⻛速、⻛向、降水等);
2. 历史因天气的异常道路状况事故报告材料等。
78
79. 应用案例-气象交通
80. 应用案例-公安知识图谱
知识图谱构建
多领域海量数据:涵盖亲属、住宿、航班、火
⻋、⻋辆、社交等多领域数据,数据规模上百
亿
“数据”转化为“知识”:将存储在关系型数据库中
的数据智能、高效地转化为知识图谱数据
知识图谱应用
多维度知识探索:从“同程、同宿、同案件”等20
多个维度进行知识探索和知识推理
隐含关系挖掘:从交通出行、网吧上网、出入
境等部⻔和系统中获取数据,发现人物的“同行,
同上网,同出国”等隐含关联关系。
81. THANK YOU
图谱学苑公众号
81