通用知识图谱构建与应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. l l 2
3. J 3
4. 1 2 3 4 5 4
5. l l 2012 Google / 统计 知识图谱 逻辑 • • • 5
6. 应用 智能音箱 数据 资源 图文标签 实体卡片 实体问答 其他应用 通用知识图谱 腾讯音乐 腾讯视频 阅文小说 …… 搜狗百科 • • 6
7. 应用层 实体卡片 精准问答 内容理解 腾讯叮当 服务层 实体检索 算子服务 实体链接 知识表示 存储层 图引擎 索引库 正排库 图数据库 …… …… 运营平台 schema管理 清洗管理 融合管理 计算层 数据层 属性抽取 实体分类 清洗对齐 实体对齐 概念抽取 关系挖掘 新热发现 推理计算 数据接入 内部FT数据 CP合作数据 数据爬取 百科站点 垂类站点 规则管理 人工干预 数据评估 数据看板 7
8. 1 2 3 4 5 8
9. vs vs vs vs ü ü ü TOP1 ü 9
10. 爬取 接入 获取数据 异构数据 刘德华 百科:1961年9月27 日出生香港 刘德华 百科:1961年9月27 日出生香港 时光网: 1961-9-27 中国香港 时光网: 1961-9-27 中国香港 实体 对齐 消岐数据 刘德华 (明星) 刘德华 (老师) 百科: 刘德华 属性 择优 Schema 对齐 同构数据 出生日期: 1961年9月27日 出生地: 香港 来源: 百科 出生日期: 1961-9-27 出生地: 中国香港 来源: 时光网 出生日期: 1961年9月27日 出生地: 香港 来源: 时光网 关系 建设 百科: 刘德华 (清华大学教授) 出生地 刘德华 香港 实体数据 (点+ 边) 1961年9月27日 出生日期 规整数据 出生日期: 1961年9月27日 出生地: 香港 来源: 百科 实体属性 (点) 时光网: 刘德华 数据 清洗 朱丽倩 妻子 1961年9月27日 出生日期 刘德华 出生地 作品 《冰雨》 香港 朱丽倩 妻子 作品 《冰雨》 10
11. 接入 解析 分类 对齐 数据 清洗 实体 对齐 属性 融合 关系 建设 校验 出库 处理框架 中间存储 数据检索 高性能 高吞吐 高性能 流批一体 成本低 易扩展 容错性好 格式化 全文索引 …… 11
12. 12
13. • • • • • • 13
14. • • • • • • • • 00003006f246f219fe7… 00003 00 http://baike.baidu.com/item... 151893513 甄嬛传 Array[ jsonObj] 14
15. 15
16. 应用场景 关系抽取 实体抽取 属性抽取 页面 解析 抽取模块 基于模版 Bootstrapping 预/后处理 先验 知识库 IP抽取 …… 基于模型 基于规则 规则 匹配 概念抽取 传 统 机 器 学 习 规则库 领域词表 模版库 黑白名单 知识图谱 深 度 神 经 网 络 经典 模型 PCNN BiLSTM 预训练 模型 BERT 摩天 人工标注 数据集 构建 远程标注 数据集管理 16
17. 17
18. V3 KeywordBERT-entityType-RC - SO 18
19. 刘向蕙 中国 1961.9.27 生日 多 源 知 识 融 合 香港 朱丽倩 妻子 国籍 基本信息 男 好友 亲友关系 性别 出生地 刘德华 表演相关 《冰雨》 《追龙》 ü ü 演唱歌曲 《谢谢你的爱》 表演作品 Ø Ø 古天乐 《爱你一万年》 导演作品 饰演角色 郭富城 搭档 《Love Under the Sun》 阿虎 金城武 女儿 《长城》 《解救吾先生》 19
20. • • • • • • • • ü ü ü 20
21. Schema库 分类到各领域 映射到领域属性 去杂质、归一化 实体分类 Schema 对齐 数据清洗 分类规则 映射规则 清洗规则 KVJson数据 • Schema • • + • • • • • Key • 同构规范 资源数据 Value 21
22. 通用实体消歧对齐技术 实体关联 实体归一 实体拆分 实体对齐 注:重复率与实体比较的召回率线性相关,业务上更关注重复率指标 22
23. KG 实 体 关 联 实 体 归 一 知识初始化 实体归一 新实体 天级 实体集 月级 实体关联 重复控制 知识图谱 实体拆分 实 体 拆 分 实体关联 实体纠错 增量构建 全量构建 候选拉取 特征提取 等价判断 NIL判断 实体分桶 特征提取 等价判断 组聚合 实体归一 实体拆分 月级
24. eg. 百科&豆瓣-刘德华 eg. 只有简介和演唱者的《冰雨》 eg. 经商的退役篮球运动员 大小写转换 去停用词 标准化字典 关键词提取 字符串精确比较 电话号码比较 生日比较 字符串编辑距离 集合比较 地址比较 文本语义比较 定制规则比较 日期比较 BAYES 模型 XGBoost 模型 24
25. • • • 实体名(实体id) 类别 李白(401011277) 历史;人物;历史人 物;诗人 李白(214800216) 泛娱乐;音乐;歌曲 李荣浩演唱歌曲 • 李白(240611076) 历史;历史人物;军 事;军事人物 中共党员,上海地下党 联络员 • 李白(526784655) 泛娱乐;视频;视频专 辑;电视剧 中国2010年邵警辉执导 电视剧 李白(205096397) 泛娱乐;游戏;游戏人 物;虚拟角色;IP 手游《王者荣耀》中的 英雄角色 李白 (222786607) 泛娱乐;娱乐人物 撒贝宁妻子、吉尼斯世 界纪录大中华区裁判 李白(236971880) 泛娱乐;视频;表演;视 频专辑;电影 北京人艺经典话剧 …… …… …… 摘要 唐代著名浪漫主义 诗人 • • • • 25
26. • • • • • • • • 26
27. KG XGBoost/GBRank MatchFeature TypeFeature SPOBertFeature KGEmbeddingFeature SP SPO共现 S-data共现 SPO-Bert O-data共现 特征交叉 Subject S Property Object P O Object-data Subject-data Entity P R F1 常规特征 0.926 0.654 0.76 +type 0.950 0.681 0.79 +SPO-Bert 0.951 0.702 0.81 +KG-Emb 0.948 0.726 0.82 +统计特征 0.952 0.732 0.83 27
28. 1 2 3 4 5 28
29. ü ü ü ü • • • 上层封装 节点状态 读、写分离 隔离I/O Docker封装 Neo4j 热点缓存 多级缓存 命中率98%+, 耗时降低30倍 29
30. • Ø ü • Ø ü • Ø ü • Ø ü 30
31. 只插入同一个属性,schema的不同是否会导致存储性能上的差异? 创建当前全属性6000+的schema,只插入a1属性值 只创建仅包含a1属性schema,只插入a1属性值 实体数目 起始空间大小 1 100W 72M 169M 3min 6000+(只有a1有值) 100W 72M 48G 18min Schema属性个数 结束空间大小 耗时 插入同样规模的100w数据的a1属性值,schema 属性的不同导致了在时间和存储空间的巨大差异 能否通过设计合理的schema来优化存储? Id|姓名|英文名|别名|所属分类|百科|ICON|主题分类|活跃地区|软件评级… 公共属性显示存+领域属性组合存 公共属性 6000+属性 领域属性 31
32. 1 2 3 4 5 32
33. 智能 音箱 智能 助手 内容 分发 资源 聚合 实体卡片 问答 产品应用 图谱问答、检索问答 KBQA 推理计算 实体链接 技术应用 实体检索 内容理解 篇章 理解 概念化、先验特征 推荐 场景 召回 排序 知识图谱 知识结构化 知识关联 内容组织 影视、花草、人物、IP 知识纠错 实体链接 知识融合 知识体系 query理解 意图识别、槽位解析 框词 生成 语义 搜索 33
34. 34
35. l l 业务:腾讯博物官、 业务:QQ浏览器搜 QQ浏览器识花君 索、QQ看点搜索 效果:提升AR扫描 效果:上线人物、影 类产品的用户体验, 视、自然等领域 支持文博( 名画/建 TOP1实体卡,相关 筑/文物)和植物扫描 实体领域TOP1满足 识别功能,日覆盖 率提升5%+ 近300W相关QV l 35
36. Mention识别 NEL 嵌套解析 计算推理 打分 模板识别 算子链生成 清洗 模型识别 算子执行 排序 verify 验证正误 inter 取交集 union 知识图谱 取并集 indexSort 排序取值 compare e.g. 田亮女儿多大了 [w:*] [r:age] 多大了 [d:entity-person] [r:daughter] 田亮 女儿 *自上而下,解析Query calAge 根据当前时间 计算年龄 getEntity "田亮" 请求图引擎 女儿 *自下而上,执行算子 比较 count 计数 calTime 时间换算 e.g. 张国立离婚了吗 e.g. 张学友梁朝伟合作作品 e.g. 乔丹科比多高 e.g. 特朗普二女儿叫什么 e.g. 广州和深圳GDP对比 e.g. 广东有几个地级市 e.g. 去年是什么生肖 …… 36
37. 37
38. 业务:微信搜一搜、QQ 浏览器搜索 使用小说领域的图谱数 据,包括小说、角色、 候选词生成 特征计算 候选词过滤 自由度计算 阈值过滤 候选实体 N-Gram 凝固度计算 词表过滤 作者等相关的属性和关 系数据。 效果:意图基础数据技 术从准召91.3%/57.8%提 升到94.7%/69.3%,累计 支持16个品类阿拉丁意 图识别,影响面8% 38
39. • • 腾讯视频 资源分发 • Type Match Relation Priors 实体消歧, 信息流分发 Ranking LR Score 39
40. l Ø ü 40
41. 1 实体名: 熊出没·狂野大陆 描述文本: 《熊出没·狂野大 陆》是《熊出没》 的第7部动画电影。 2 熊出没 季部号 第7部 副标题 狂野大陆 IP 蜘蛛侠 3 主干名 蜘蛛侠2 蜘蛛侠3 超凡蜘蛛侠 蜘蛛侠:英雄归来 超凡蜘蛛侠2 蜘蛛侠:英雄远征 IP 蜘蛛侠 所属IP 蜘蛛侠:平行宇宙 蜘蛛侠 41
42. 1 语料: 搜索query/日志、资源title 方法: 统计(分词、共现) 模型(生成、抽取) 2 语料: 标注的正负样本 特征: 语义、QV、关联资源等 方法: XGBoost BERT 迪丽热巴恋情 3 方法: 借助实体的EL技术 李雪秦吐槽大会 你是我的荣耀结局 鹿晗关晓彤 智勇大冲关廖慧敏 崩坏3电子护盾 42
43. 1 2 3 4 5 43
44. l 公有数据 私有数据 合作数据 腾讯资源 爬取 平台 清洗对齐 接入 平台 建边推理 图谱库 知识融合 知识抽取 图引擎 图谱能力 l ü ü l 44
45. • • • • • • • 45
46. 查询服务 n 服务 • • 多地部署,平滑扩容 后端失效:数据缓存+异步成功更新 n 存储 • • 离线:hive存储,分区备份 在线:多地部署,按日备份 1 2 缓 存 3 图引擎 4 图谱在线服务/存储部署 深圳 天津 上海 … … … n 数据 • • 数据抖动校验+熔断机制 数据漏斗+核心数据监控 n 流程 • • 透明化监控 模块化拆解+流程重试 46
47. Ø Ø Ø Ø 47
48. l • • • • l • • NLP l • • • 48
49. 49
50.

trang chủ - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-17 16:33
浙ICP备14020137号-1 $bản đồ khách truy cập$