事件图谱构建与应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. | D a t a F u n Ta l k
事件图谱构建与应用
腾讯:朱斌
2. 提纲
• 事件图谱介绍
• 事件图谱构建
•
•
•
•
•
•
元事件抽取
事件语义表示
事件归一
话题抽取
话题追踪
实体图谱异构关联
• 事件图谱应用
• 近线系统
• QQ浏览器应用
| D a t a F u n Ta l k
3. | D a t a F u n Ta l k
背景介绍——事件图谱文章相对较少
极少文章涉及到事件图谱构建
集中于研究事件抽取
事件图谱:纯粹的事件图谱业界研究较少,具有很强的业务属性
• 事件图谱需要业务场景
• 事件图谱需要动态演化
• 通用领域的事件图谱构建难度大
4. | D a t a F u n Ta l k
背景介绍——事件图谱 VS 实体图谱
实体图谱 事件图谱
基础单元 实体/概念 元事件/话题
知识形态 静态为主 动态为主
构建方式 自上而下为主 自下而上为主
性能要求 存储要求高 时效要求高
5. | D a t a F u n Ta l k
背景介绍——事件图谱&应用框架
结
构
化
Query理解
排序层
事件管理平台
混排模型+广告插入
切词
图谱构建层
事件热度 事件关系 多模关联 事件主题
事件分级 事件情感 实体消歧 话题追踪
LTR调权模型 + CTR预估模型
相关性精
算
权威性特
征
质量分特征
时效性特征
卡
预
估
模
型
广
告
词权
NER
补全、联想词
事件检测层
事件表示
召回层
事件归一
事件类别
改写、纠错
粗排模型
事件检测
IR召回
话题抽取
话题属性|话题领域
非
结
构
化
事件抽取
触发词|语义角色|属性
数据层
PUSH
全词、全核心词、二挡核
心词
事件ID召回
语义召回
意图识别
内容理解层
爬虫
Query
全网资源
企鹅号
近线系统
工业级方案:全链路分钟级生效
分类&TAG
分类
事件链接
权威度
内容质量
在线系统
知识图谱
事件图谱
时效判别
6. 提纲
• 事件图谱介绍
• 事件图谱构建
•
•
•
•
•
•
元事件抽取
事件语义表示
事件归一
话题抽取
话题追踪
实体图谱异构关联
• 事件图谱应用
• 近线系统
• QQ浏览器应用
| D a t a F u n Ta l k
7. | D a t a F u n Ta l k
事件图谱基础:事件/话题抽取
• 元事件/话题事件分别抽取
• 元事件:以动作为驱动的,关注“谁对谁在哪里做了什么“
• 话题事件:以同一主题为核心的元事件集合,主题称为话题事件
事件抽取
元事件:
Subject: 重庆大学
Trigger: 通报
Object: 女副教授
坠楼身亡
事件标题
STO监督的事件标题抽取
•
•
•
重庆大学通报女副教授坠亡调查情况
重庆大学通报女副教授坠楼身亡
重庆大学通报女副教授坠亡
事件归一
STO抽取
流式内容入库
话题追踪
话题抽取
话题事件:
Domain: 社会
Type: 死亡
Object: 重庆大学女副教授
• 东京奥运会-> 话题事件
• 中国出征东京奥运会-> 元事件
Title:重庆大学通报女副教授坠亡
Subject: 重庆大学
Trigger: 通报
Object: 女副教授坠楼身亡
8. | D a t a F u n Ta l k
元事件抽取
• 元事件:以动作为驱动的,关注“谁对谁在哪里做了什么“
方案 模型
DuEE-Fin 预定义schema
(13大类) 分类/论元识别
CCKS 2020 预定义schema
(8大类) 分类/论元识别
讯飞 主体、客体、触
发词、时间 触发词/语义角色
QQ浏览器 主体、客体、触
发词、地点、时
间 触发词/语义角色
StoryForest 在线文章聚类 聚类
EMNLP2020: Event Extraction by Answering (Almost) Natural Questions
EMNLP2020:Event Extraction as Machine Reading Comprehension
ACE2005
预定义schema
分类/论元识别
主流方案:
• 预定义事件Schema,识别类型抽取论元
• 聚类识别爆发信号,抽取事件
• 通用语义角色识别(主体,触发词,客体)
9. | D a t a F u n Ta l k
元事件抽取 —— 基于PosTag Attention的序列标注模型
自动构造标注样本30万
•
•
•
新闻判断模型获选新闻语料资源
开源LTP基于句法依存树剪枝
事件判断模型(准召98%/88%)过滤
引入词性矩阵表征句法信息
•
左侧保留语义信息,右侧引入句法信息
重庆大学通报女副教授坠亡调查情况
CRF-Layer
Bi-LSTM
Concatenate
Graph-Conv-Layer
…
重庆大学通报女副教授坠亡调查情况
? nn
Albert-Layer
⋯ ? 1?
? n1
? 11 ? 12
Graph-Generate-Layer
n n n n v v n n
… n v v n n n n
PE-Albert:POS Enhanced Albert
10. | D a t a F u n Ta l k
元事件抽取 —— 基于触发词的双层指针网络
•
多个触发词包含同个事件主体
• 尽量保留PE-Albert中的句法信息
• 触发词间的主客体抽取互不干扰
• 模型可以层次化叠加,拓展性好
Ex:保罗·沃克22岁爱女宣布闪电结婚 泳池中大秀钻戒
•
部分事件无客体,易误判
• Trigger-ST
• Begin/Inside/Outside
• Trigger-STO
• Begin/Inside/Outside
重 庆 大 学 通 报 女 副 教 授 坠 亡 调 查 情 况
事件客体
事件主体
E 0 0 0 0 0 0 0 0 0 … 0 1
S 0 0 0 0 0 0 1 0 0 … 0 0
E 0 0 0 1 0 0 0 0 0 … 0 0
S 1 0 0 0 0 0 0 0 0 … 0 0
CRF-Layer
Bi-LSTM
PE-Albert
Dense [hidden, 2]
Dense[hidden, 2]
Trigger-STO
PE-Albert
重庆大学通报女副教授坠亡调查情况
重庆大学[SEP]通报[SEP]女副教授坠亡调查情况
11. 提纲
• 事件图谱介绍
• 事件图谱构建
•
•
•
•
•
•
元事件抽取
事件语义表示
事件归一
话题抽取
话题追踪
实体图谱异构关联
• 事件图谱应用
• 近线系统
• QQ浏览器应用
| D a t a F u n Ta l k
12. | D a t a F u n Ta l k
事件归一 —— 方案对比&选型
选型要求
• 事件表示多场景复用(Query/Doc/Video/Topic)
• 有效事件(万级)Inference性能要求在100ms以内
无监督
有监督
类型 模型 优点
缺点
交互式 BM25
Jacaard
LCS 耗时< 1ms
解释性强
泛化差
表示式 Word2Vec
BERT 一定泛化性 效果差
交互式 Pyramid CNN 效果较好
语义学习能力弱
运算速度快
XGB 运算速度快 依赖特征构造
表示式
ESIM 效果较好 运算速度70ms
BERT series 效果好 运算速度70ms
Sentence
BERT/Albert/Ro
berta/
在线效率高, 效果中等
一次计算
选型: Albert-based Siamese Network
• 部署方便,参数共享,复用性高
算法核心难点
• 事件相关性语料缺乏
• 单一事件表述差异存在较大差异
• 不同事件表述差异可能很小
• 事件相关性对于属性更敏感
尹笑言晋级空手道半决赛
尹笑言晋级空手道四强
尹笑言晋级空手道决赛
13. | D a t a F u n Ta l k
事件语义表示 —— 基于对比学习
对比样本构造
•
解法:参考对比学习构造样本51W
• TermWeight删除非核心term
• 刘诗雯因伤退出乒乓球女团比赛
• 因伤 -> Delete
• 利用改写服务改写/NEL
• 郑州一居民用手电为消防员照明
• 手电 -> 电筒
• 消防员 -> 消防队员
模型上借鉴CV领域,对比学习强化Embedding表示
•
CVPR2020:Momentum Contrast for Unsupervised Visual Representation Learning
Info NCE loss
VEC
VEC
VEC
VEC
VEC
VEC
自监督学习
•
Info NCE loss,s表示向量内积
Albert
…
重庆大学通报女副教授坠亡
吴亦凡涉嫌强奸被刑拘
缺点
•
•
…
重庆大学通报女副教授坠亡调查情况
吴亦凡涉嫌强奸罪被警方刑拘
对比语料偏容易,属性特征利用不够
事件样本数量较少,区分能力有限
Deepmind:Representation Learning with Contrastive Predictive Coding
14. | D a t a F u n Ta l k
事件语义表示 —— 基于预训练CWP-Albert/属性增强
事件属性特征增强
• 大规模时效性语料
• Embedding融入分词/词性信息
• 构造属性增强样本
Cosine Similarity
MLM
VEC
• 预训练
•
•
•
VEC
Albert
样本构造:3千万数据集
引入QT 点击日志(新闻大卡)
负样本(曝光未点击&三天之前的资源)
? 0
? 1
? 2
? 3
•
•
针对属性样本增强,负样本构造42W
• 改写人物、数字,动词,反义词
• 都美竹澄清李恩不是姐姐
• 都美竹- >网红 ->李雪琴
对抗学习:Fast Gradient Method
• 反向梯度扰动叠加Embedding
? 23 ? 24 ? 25
? ? ? ? … ? ? ? ?
? 重庆 ? 大学 … ? 查 ? 情况
… ? 查 ? 情 ? 况
? 重 ? 庆 ? 大 ? 学
• 属性增强微调
…
搜索中台分词
CWP-Albert
重庆大学通报女副教授坠亡调查情况
搜索中台分词
重庆大学通报女副教授坠亡
15. | D a t a F u n Ta l k
事件归一 —— 基于合并场景定制化业务逻辑
引入非语义特征
• 存在部分case语义无法解决
• 语义合并具有不可解释,杜绝恶劣case
• 解决方案
• 加入后处理:事件时间差的动态阈值
• Thresh = min(0.8 * (0.8 + delta(time)/60), 0.9)
• 构建基于少量关键特征比较器模型来辅助投票
英将实施BNO签证政策 中使馆回应
LOC
v
eng
ORG
v
同特征按是否交集分桶
A != Ø && B != Ø && A B != Ø
A != Ø && B != Ø && A B == Ø
A == Ø && B != Ø
A == Ø || B == Ø
分析
• 时间差越大,事件误合并概率越高
• 时间差越小,事件漏合并概率越高
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
未合并
6
12
合并错误
18
事件时间差(小时)
中使馆回应英国BNO签证政策
ORG
v
最长公共子序列
杰卡德距离
Input Feature
Embedding
Average
Lookup table
32维
人名/地名/组织名/动词/英文/数字/杰西卡距离/
最长公共子序列等特征分桶
24
36
LOC eng
16. 提纲
• 事件图谱介绍
• 事件图谱构建
•
•
•
•
•
•
元事件抽取
事件语义表示
事件归一
话题抽取
话题追踪
实体图谱异构关联
• 事件图谱应用
• 近线系统
• QQ浏览器应用
| D a t a F u n Ta l k
17. 话题事件抽取 —— 方案选型
业界方案
TF-IDF+BERT聚类
TF-IDF动态检测
特征抽取/在线聚类
Online Topic Detection and Tracking System
2020 and Its Application on Stock Market in China
Hot Topic Detection Based on a Refined TF-IDF Algorithm
Story Forest: Extracting Events and Telling Stories from Breaking News
LDA+生命周期建模
Extracting and tracking hot topics of micro-blogs
based on improved Latent Dirichlet Allocation
2019
SinglePass聚类
An Improved Single-Pass Algorithm For Chinese
Microblog Topic Detection and Tracking
2016
TDT 2004
Topic Detection and Tracking Evaluation Overview
2004
| D a t a F u n Ta l k
业界方案缺点
• 话题缺乏统一的定义,优化目标不明确
• 时效性不高,挖掘需要早于用户需求爆发
• 话题是动态进展,需要动态追踪
方案——结构化话题事件抽取
• 基于用户兴趣点和搜索行为
• 提出结构化“Domain-Type-Subject”话题表示
• 社会_死亡_重庆大学女教师
18. | D a t a F u n Ta l k
话题事件抽取 —— Domain-Type-Subject
娱乐
Query侧:需求挖掘
•
•
主动搜索
需求准确
时效性较低
资源侧:需求抽取
•
•
话题属性词需求泛
时效性高
主体:谢大脚扮演者于月仙
触发词:去世
客体: None
话题属性词:去世
话题类别:去世
PATT:去世_PER
Domain_Type_Subject
娱乐_去世_谢大脚扮演者于月仙
19. | D a t a F u n Ta l k
话题事件抽取 —— 话题Type属性词抽取
结合事件Trigger抽取任务,加入话题属性词抽取任务
•
•
属性词效果
共享触发词识别的Encoder模型
增加针对话题属性词的抽取任务
准确率
话题属性词
事件Trigger
保罗·沃克22岁爱女宣布闪电结婚 泳池中大秀钻戒
话题属性词
93%
召回率
81%
保罗·沃克22岁爱女宣布闪电 结婚 泳池中大秀钻戒
CRF-Layer CRF-Layer
Bi-LSTM Bi-LSTM
话题抽取效果
准确率
话题DTS
82%
召回率
73%
实时入库
PE-Albert
保罗·沃克22岁爱女宣布闪电结婚 泳池中大秀钻戒
娱乐_去世_谢大脚扮演者于月仙
接下来:话题如何追踪呢?
20. | D a t a F u n Ta l k
话题追踪 —— 基于Type/Subject的静态MRC模型
话题:娱乐_去世_谢大脚扮演者于月仙
追踪难点
• Type 2000+,匹配效率低
• Type动态增长,无法分类
事件:于月仙去世原因:车撞上骆驼
解法
•
基于话题体系的MRC模型
• Event_是_Type_subject的最新进展?
Sigmoid
娱乐_去世_谢大脚扮演者于月仙
Dense
Albert
[CLS]于月仙去世原因:车撞上骆驼
[SEP]是
主体为谢大脚扮演者于月仙,
类别为去世
[SEP]的话题的最新进展?
静态表示缺点
效果
版本 模型 ACC AUC
baseline 平均相似度 0.8011 0.9048
1 DTS_MRC 0.8312 0. 9268
•
•
静态表示泛化能力不足
话题会动态演化,大量动态信息丢失
如何融入事件的动态信息?
21. | D a t a F u n Ta l k
话题追踪 —— 基于Transformer的动态事件MRC模型
动态追踪核心难点
• 如何编码事件动态变化的信息?
• 不同事件对话题子事件关注度不相同?
核心改进点
•
•
Sigmoid
事件作为语义单元,动态加入Transfomer
动态追踪最新进展
Dense
Transformer
event
event event event
CWP-Albert
Video Transformer Network CVPR2021
版本 模型 ACC AUC
baseline 最大相似度 0.8011 0.9048
1 DTS_MRC 0.8312 0. 9268
2 Dynamic_MRC 0.8355 0.942
贝索斯和盖茨前妻捐款4千万
新事件
是如下事件的进展
话题子事件集
…
比尔·盖茨承认自己搞砸了婚姻
比尔·盖茨和梅琳达正式离婚
22. 提纲
• 事件图谱介绍
• 事件图谱构建
•
•
•
•
•
•
元事件抽取
事件语义表示
事件归一
话题抽取
话题追踪
实体图谱异构关联
• 事件图谱应用
• 近线系统
• QQ浏览器应用
| D a t a F u n Ta l k
23. | D a t a F u n Ta l k
异构融合 —— 事件图谱和实体图谱异构关联
Event Entity Linking
•
Type
语义分类
Match
ACM 2018:Short text entity linking with fine-grained topics
AAAI 2018:DeepType: multilingual entity linking by neural type system
Priors
Ranking
evolution
• 全局匹配
vote
Semantic Web 2018:robust named entity disambiguation with random walks
• 全局匹配:KG Embedding
Relation
Score
• 局部匹配:MultiChannel-TinyBert
Match
Sigmoid
Sigmoid
Sigmoid
Classification
Sigmoid
Dense
Dense
Entity Labels
Dense
Dense
CLS
C1
C2
C3
C4
CLS
TinyBERT
模型效果:多通道融合,效果保证
运算效率:多任务联合训练和预测+BERT蒸馏+共享指针
王
...
S_B
李
白
S_E
TinyBERT
...
足
李
白
...
刺
客
角
Entity
色
...
24. 提纲
• 事件图谱介绍
• 事件图谱构建
•
•
•
•
•
•
元事件抽取
事件语义表示
事件归一
话题抽取
话题追踪
实体图谱异构关联
• 事件图谱应用
• QQ浏览器落地产品
• 应用基石:近线系统
| D a t a F u n Ta l k
25. | D a t a F u n Ta l k
事件图谱应用——QQ浏览器落地产品
支持QQ浏览器20+业务落地
事件关联话题
热榜
Q关联事件
实体图谱
异构关联
多模事件关联
专题
实体图谱
异构关联
26. | D a t a F u n Ta l k
近线系统 —— 应用落地的基石
计算中间状态
DAG
数据
bdb
索引
mdb
数据应用
算子
统一输出
热搜榜
kafka
Topo管理/调度
人工运营源
source
Query爆发源
外部榜单爬取
kafka
计算结果
sink
全局调度 流控
对账上报 过滤
存储
Topo执行
api
Q链事件
mdb
框词
对账上报
stateful cache
PUSH侧挖掘
事件大卡
Dcache
kafka
事件脉络
事件话题
Doc资源挖掘
热度
Source
分词
STO
合并
…
话题
性能效果
• 事件生效平均耗时从10min下降到46s
• 事件数据稳定性超过99.9%
• 算法工程解偶,效率提升超过50%
资源
sink
27. Thanks ! Q & A
28. | D a t a F u n Ta l k
腾讯看点技术