通用知识图谱构建与应用
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. l
l
2
3. J
3
4. 1
2
3
4
5
4
5. l
l
2012
Google
/
统计
知识图谱
逻辑
•
•
•
5
6. 应用
智能音箱
数据
资源
图文标签
实体卡片
实体问答
其他应用
通用知识图谱
腾讯音乐
腾讯视频
阅文小说
……
搜狗百科
•
•
6
7. 应用层
实体卡片
精准问答
内容理解
腾讯叮当
服务层 实体检索 算子服务 实体链接 知识表示
存储层 图引擎 索引库 正排库 图数据库
……
……
运营平台
schema管理
清洗管理
融合管理
计算层
数据层
属性抽取 实体分类 清洗对齐 实体对齐
概念抽取 关系挖掘 新热发现 推理计算
数据接入
内部FT数据
CP合作数据
数据爬取
百科站点
垂类站点
规则管理
人工干预
数据评估
数据看板
7
8. 1
2
3
4
5
8
9. vs vs
vs vs
ü
ü
ü
TOP1
ü
9
10. 爬取
接入
获取数据
异构数据
刘德华
百科:1961年9月27
日出生香港 刘德华
百科:1961年9月27
日出生香港
时光网:
1961-9-27 中国香港 时光网:
1961-9-27 中国香港
实体
对齐
消岐数据
刘德华
(明星)
刘德华
(老师)
百科: 刘德华
属性
择优
Schema
对齐
同构数据
出生日期: 1961年9月27日
出生地: 香港
来源: 百科
出生日期: 1961-9-27
出生地: 中国香港
来源: 时光网 出生日期: 1961年9月27日
出生地: 香港
来源: 时光网
关系
建设
百科: 刘德华
(清华大学教授) 出生地
刘德华
香港
实体数据 (点+
边)
1961年9月27日
出生日期
规整数据
出生日期: 1961年9月27日
出生地: 香港
来源: 百科
实体属性 (点)
时光网: 刘德华
数据
清洗
朱丽倩
妻子
1961年9月27日
出生日期
刘德华
出生地
作品
《冰雨》
香港
朱丽倩
妻子
作品
《冰雨》
10
11. 接入
解析
分类
对齐
数据
清洗
实体
对齐
属性
融合
关系
建设
校验
出库
处理框架 中间存储 数据检索
高性能 高吞吐 高性能
流批一体 成本低 易扩展
容错性好 格式化 全文索引
……
11
12. 12
13. •
•
•
•
•
•
13
14. •
•
•
•
•
•
•
•
00003006f246f219fe7…
00003
00
http://baike.baidu.com/item...
151893513
甄嬛传
Array[ jsonObj]
14
15. 15
16. 应用场景
关系抽取
实体抽取
属性抽取
页面
解析
抽取模块
基于模版
Bootstrapping
预/后处理
先验
知识库
IP抽取
……
基于模型
基于规则
规则
匹配
概念抽取
传
统
机
器
学
习
规则库 领域词表
模版库 黑白名单
知识图谱
深
度
神
经
网
络
经典
模型 PCNN BiLSTM
预训练
模型 BERT 摩天
人工标注
数据集
构建
远程标注
数据集管理
16
17. 17
18. V3 KeywordBERT-entityType-RC
-
SO
18
19. 刘向蕙
中国
1961.9.27
生日
多
源
知
识
融
合
香港
朱丽倩
妻子
国籍
基本信息
男
好友
亲友关系
性别
出生地
刘德华
表演相关
《冰雨》
《追龙》
ü
ü
演唱歌曲
《谢谢你的爱》
表演作品
Ø
Ø
古天乐
《爱你一万年》
导演作品
饰演角色
郭富城
搭档
《Love Under
the Sun》
阿虎
金城武
女儿
《长城》
《解救吾先生》
19
20. • •
• •
• •
• •
ü
ü
ü
20
21. Schema库
分类到各领域 映射到领域属性 去杂质、归一化
实体分类 Schema
对齐 数据清洗
分类规则 映射规则 清洗规则
KVJson数据
• Schema • • + • •
• •
•
Key
•
同构规范
资源数据
Value
21
22. 通用实体消歧对齐技术
实体关联
实体归一
实体拆分
实体对齐
注:重复率与实体比较的召回率线性相关,业务上更关注重复率指标
22
23. KG
实
体
关
联
实
体
归
一
知识初始化
实体归一
新实体
天级
实体集
月级
实体关联
重复控制
知识图谱
实体拆分
实
体
拆
分
实体关联
实体纠错
增量构建 全量构建
候选拉取 特征提取 等价判断 NIL判断
实体分桶 特征提取 等价判断 组聚合
实体归一
实体拆分
月级
24. eg. 百科&豆瓣-刘德华
eg. 只有简介和演唱者的《冰雨》
eg. 经商的退役篮球运动员
大小写转换 去停用词
标准化字典 关键词提取
字符串精确比较 电话号码比较 生日比较
字符串编辑距离 集合比较 地址比较
文本语义比较 定制规则比较 日期比较
BAYES 模型
XGBoost 模型
24
25. •
•
•
实体名(实体id) 类别 李白(401011277) 历史;人物;历史人
物;诗人 李白(214800216) 泛娱乐;音乐;歌曲 李荣浩演唱歌曲 •
李白(240611076) 历史;历史人物;军
事;军事人物 中共党员,上海地下党
联络员 •
李白(526784655) 泛娱乐;视频;视频专
辑;电视剧 中国2010年邵警辉执导
电视剧 李白(205096397) 泛娱乐;游戏;游戏人
物;虚拟角色;IP 手游《王者荣耀》中的
英雄角色 李白
(222786607) 泛娱乐;娱乐人物 撒贝宁妻子、吉尼斯世
界纪录大中华区裁判 李白(236971880) 泛娱乐;视频;表演;视
频专辑;电影 北京人艺经典话剧 …… ……
……
摘要
唐代著名浪漫主义
诗人
•
•
•
•
25
26. •
•
•
•
•
•
•
•
26
27. KG
XGBoost/GBRank
MatchFeature
TypeFeature
SPOBertFeature
KGEmbeddingFeature
SP
SPO共现
S-data共现
SPO-Bert
O-data共现
特征交叉
Subject
S
Property
Object
P
O
Object-data
Subject-data
Entity
P R F1
常规特征 0.926 0.654 0.76
+type 0.950 0.681 0.79
+SPO-Bert 0.951 0.702 0.81
+KG-Emb 0.948 0.726 0.82
+统计特征 0.952 0.732 0.83
27
28. 1
2
3
4
5
28
29. ü
ü
ü
ü
•
•
•
上层封装
节点状态 读、写分离
隔离I/O
Docker封装
Neo4j 热点缓存
多级缓存
命中率98%+,
耗时降低30倍
29
30. • Ø ü
• Ø ü
• Ø ü
• Ø ü
30
31. 只插入同一个属性,schema的不同是否会导致存储性能上的差异?
创建当前全属性6000+的schema,只插入a1属性值
只创建仅包含a1属性schema,只插入a1属性值
实体数目 起始空间大小 1 100W 72M 169M 3min
6000+(只有a1有值) 100W 72M 48G 18min
Schema属性个数
结束空间大小
耗时
插入同样规模的100w数据的a1属性值,schema
属性的不同导致了在时间和存储空间的巨大差异
能否通过设计合理的schema来优化存储?
Id|姓名|英文名|别名|所属分类|百科|ICON|主题分类|活跃地区|软件评级…
公共属性显示存+领域属性组合存
公共属性
6000+属性
领域属性
31
32. 1
2
3
4
5
32
33. 智能
音箱
智能
助手
内容
分发
资源
聚合
实体卡片
问答
产品应用
图谱问答、检索问答
KBQA
推理计算
实体链接
技术应用
实体检索
内容理解
篇章
理解
概念化、先验特征
推荐
场景
召回
排序
知识图谱
知识结构化
知识关联
内容组织
影视、花草、人物、IP
知识纠错
实体链接
知识融合
知识体系
query理解
意图识别、槽位解析
框词
生成
语义
搜索
33
34. 34
35. l
l
业务:腾讯博物官、 业务:QQ浏览器搜
QQ浏览器识花君 索、QQ看点搜索
效果:提升AR扫描 效果:上线人物、影
类产品的用户体验, 视、自然等领域
支持文博( 名画/建 TOP1实体卡,相关
筑/文物)和植物扫描 实体领域TOP1满足
识别功能,日覆盖 率提升5%+
近300W相关QV
l
35
36. Mention识别
NEL
嵌套解析 计算推理 打分
模板识别 算子链生成 清洗
模型识别 算子执行 排序
verify
验证正误
inter
取交集
union
知识图谱
取并集
indexSort
排序取值
compare
e.g. 田亮女儿多大了
[w:*] [r:age]
多大了
[d:entity-person] [r:daughter]
田亮
女儿
*自上而下,解析Query
calAge
根据当前时间
计算年龄
getEntity
"田亮"
请求图引擎
女儿
*自下而上,执行算子
比较
count
计数
calTime
时间换算
e.g. 张国立离婚了吗
e.g. 张学友梁朝伟合作作品
e.g. 乔丹科比多高
e.g. 特朗普二女儿叫什么
e.g. 广州和深圳GDP对比
e.g. 广东有几个地级市
e.g. 去年是什么生肖
……
36
37. 37
38. 业务:微信搜一搜、QQ
浏览器搜索
使用小说领域的图谱数
据,包括小说、角色、
候选词生成
特征计算 候选词过滤
自由度计算 阈值过滤
候选实体
N-Gram
凝固度计算
词表过滤
作者等相关的属性和关
系数据。
效果:意图基础数据技
术从准召91.3%/57.8%提
升到94.7%/69.3%,累计
支持16个品类阿拉丁意
图识别,影响面8%
38
39. •
•
腾讯视频
资源分发
•
Type
Match
Relation
Priors
实体消歧,
信息流分发
Ranking
LR
Score
39
40. l
Ø
ü
40
41. 1
实体名:
熊出没·狂野大陆
描述文本: 《熊出没·狂野大
陆》是《熊出没》
的第7部动画电影。
2
熊出没
季部号 第7部
副标题 狂野大陆
IP
蜘蛛侠
3
主干名
蜘蛛侠2
蜘蛛侠3
超凡蜘蛛侠 蜘蛛侠:英雄归来
超凡蜘蛛侠2 蜘蛛侠:英雄远征
IP
蜘蛛侠
所属IP
蜘蛛侠:平行宇宙
蜘蛛侠
41
42. 1
语料: 搜索query/日志、资源title
方法: 统计(分词、共现)
模型(生成、抽取)
2
语料: 标注的正负样本
特征: 语义、QV、关联资源等
方法: XGBoost
BERT
迪丽热巴恋情
3
方法: 借助实体的EL技术
李雪秦吐槽大会
你是我的荣耀结局 鹿晗关晓彤
智勇大冲关廖慧敏 崩坏3电子护盾
42
43. 1
2
3
4
5
43
44. l
公有数据
私有数据
合作数据
腾讯资源
爬取
平台 清洗对齐
接入
平台 建边推理
图谱库
知识融合
知识抽取
图引擎
图谱能力
l
ü
ü
l
44
45. •
•
•
•
•
•
•
45
46. 查询服务
n 服务
•
•
多地部署,平滑扩容
后端失效:数据缓存+异步成功更新
n 存储
•
•
离线:hive存储,分区备份
在线:多地部署,按日备份
1
2
缓
存
3
图引擎
4
图谱在线服务/存储部署
深圳 天津 上海
… … …
n 数据
•
•
数据抖动校验+熔断机制
数据漏斗+核心数据监控
n 流程
•
•
透明化监控
模块化拆解+流程重试
46
47. Ø
Ø
Ø
Ø
47
48. l
•
•
•
•
l
•
•
NLP
l
•
•
•
48
49. 49
50.