事件图谱构建与应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. | D a t a F u n Ta l k 事件图谱构建与应用 腾讯:朱斌
2. 提纲 • 事件图谱介绍 • 事件图谱构建 • • • • • • 元事件抽取 事件语义表示 事件归一 话题抽取 话题追踪 实体图谱异构关联 • 事件图谱应用 • 近线系统 • QQ浏览器应用 | D a t a F u n Ta l k
3. | D a t a F u n Ta l k 背景介绍——事件图谱文章相对较少 极少文章涉及到事件图谱构建 集中于研究事件抽取 事件图谱:纯粹的事件图谱业界研究较少,具有很强的业务属性 • 事件图谱需要业务场景 • 事件图谱需要动态演化 • 通用领域的事件图谱构建难度大
4. | D a t a F u n Ta l k 背景介绍——事件图谱 VS 实体图谱 实体图谱 事件图谱 基础单元 实体/概念 元事件/话题 知识形态 静态为主 动态为主 构建方式 自上而下为主 自下而上为主 性能要求 存储要求高 时效要求高
5. | D a t a F u n Ta l k 背景介绍——事件图谱&应用框架 结 构 化 Query理解 排序层 事件管理平台 混排模型+广告插入 切词 图谱构建层 事件热度 事件关系 多模关联 事件主题 事件分级 事件情感 实体消歧 话题追踪 LTR调权模型 + CTR预估模型 相关性精 算 权威性特 征 质量分特征 时效性特征 卡 预 估 模 型 广 告 词权 NER 补全、联想词 事件检测层 事件表示 召回层 事件归一 事件类别 改写、纠错 粗排模型 事件检测 IR召回 话题抽取 话题属性|话题领域 非 结 构 化 事件抽取 触发词|语义角色|属性 数据层 PUSH 全词、全核心词、二挡核 心词 事件ID召回 语义召回 意图识别 内容理解层 爬虫 Query 全网资源 企鹅号 近线系统 工业级方案:全链路分钟级生效 分类&TAG 分类 事件链接 权威度 内容质量 在线系统 知识图谱 事件图谱 时效判别
6. 提纲 • 事件图谱介绍 • 事件图谱构建 • • • • • • 元事件抽取 事件语义表示 事件归一 话题抽取 话题追踪 实体图谱异构关联 • 事件图谱应用 • 近线系统 • QQ浏览器应用 | D a t a F u n Ta l k
7. | D a t a F u n Ta l k 事件图谱基础:事件/话题抽取 • 元事件/话题事件分别抽取 • 元事件:以动作为驱动的,关注“谁对谁在哪里做了什么“ • 话题事件:以同一主题为核心的元事件集合,主题称为话题事件 事件抽取 元事件: Subject: 重庆大学 Trigger: 通报 Object: 女副教授 坠楼身亡 事件标题 STO监督的事件标题抽取 • • • 重庆大学通报女副教授坠亡调查情况 重庆大学通报女副教授坠楼身亡 重庆大学通报女副教授坠亡 事件归一 STO抽取 流式内容入库 话题追踪 话题抽取 话题事件: Domain: 社会 Type: 死亡 Object: 重庆大学女副教授 • 东京奥运会-> 话题事件 • 中国出征东京奥运会-> 元事件 Title:重庆大学通报女副教授坠亡 Subject: 重庆大学 Trigger: 通报 Object: 女副教授坠楼身亡
8. | D a t a F u n Ta l k 元事件抽取 • 元事件:以动作为驱动的,关注“谁对谁在哪里做了什么“ 方案 模型 DuEE-Fin 预定义schema (13大类) 分类/论元识别 CCKS 2020 预定义schema (8大类) 分类/论元识别 讯飞 主体、客体、触 发词、时间 触发词/语义角色 QQ浏览器 主体、客体、触 发词、地点、时 间 触发词/语义角色 StoryForest 在线文章聚类 聚类 EMNLP2020: Event Extraction by Answering (Almost) Natural Questions EMNLP2020:Event Extraction as Machine Reading Comprehension ACE2005 预定义schema 分类/论元识别 主流方案: • 预定义事件Schema,识别类型抽取论元 • 聚类识别爆发信号,抽取事件 • 通用语义角色识别(主体,触发词,客体)
9. | D a t a F u n Ta l k 元事件抽取 —— 基于PosTag Attention的序列标注模型 自动构造标注样本30万 • • • 新闻判断模型获选新闻语料资源 开源LTP基于句法依存树剪枝 事件判断模型(准召98%/88%)过滤 引入词性矩阵表征句法信息 • 左侧保留语义信息,右侧引入句法信息 重庆大学通报女副教授坠亡调查情况 CRF-Layer Bi-LSTM Concatenate Graph-Conv-Layer … 重庆大学通报女副教授坠亡调查情况 𝑃 nn Albert-Layer ⋯ 𝑃 1𝑛 𝑃 n1 𝑃 11 𝑃 12 Graph-Generate-Layer n n n n v v n n … n v v n n n n PE-Albert:POS Enhanced Albert
10. | D a t a F u n Ta l k 元事件抽取 —— 基于触发词的双层指针网络 • 多个触发词包含同个事件主体 • 尽量保留PE-Albert中的句法信息 • 触发词间的主客体抽取互不干扰 • 模型可以层次化叠加,拓展性好 Ex:保罗·沃克22岁爱女宣布闪电结婚 泳池中大秀钻戒 • 部分事件无客体,易误判 • Trigger-ST • Begin/Inside/Outside • Trigger-STO • Begin/Inside/Outside 重 庆 大 学 通 报 女 副 教 授 坠 亡 调 查 情 况 事件客体 事件主体 E 0 0 0 0 0 0 0 0 0 … 0 1 S 0 0 0 0 0 0 1 0 0 … 0 0 E 0 0 0 1 0 0 0 0 0 … 0 0 S 1 0 0 0 0 0 0 0 0 … 0 0 CRF-Layer Bi-LSTM PE-Albert Dense [hidden, 2] Dense[hidden, 2] Trigger-STO PE-Albert 重庆大学通报女副教授坠亡调查情况 重庆大学[SEP]通报[SEP]女副教授坠亡调查情况
11. 提纲 • 事件图谱介绍 • 事件图谱构建 • • • • • • 元事件抽取 事件语义表示 事件归一 话题抽取 话题追踪 实体图谱异构关联 • 事件图谱应用 • 近线系统 • QQ浏览器应用 | D a t a F u n Ta l k
12. | D a t a F u n Ta l k 事件归一 —— 方案对比&选型 选型要求 • 事件表示多场景复用(Query/Doc/Video/Topic) • 有效事件(万级)Inference性能要求在100ms以内 无监督 有监督 类型 模型 优点 缺点 交互式 BM25 Jacaard LCS 耗时< 1ms 解释性强 泛化差 表示式 Word2Vec BERT 一定泛化性 效果差 交互式 Pyramid CNN 效果较好 语义学习能力弱 运算速度快 XGB 运算速度快 依赖特征构造 表示式 ESIM 效果较好 运算速度70ms BERT series 效果好 运算速度70ms Sentence BERT/Albert/Ro berta/ 在线效率高, 效果中等 一次计算 选型: Albert-based Siamese Network • 部署方便,参数共享,复用性高 算法核心难点 • 事件相关性语料缺乏 • 单一事件表述差异存在较大差异 • 不同事件表述差异可能很小 • 事件相关性对于属性更敏感 尹笑言晋级空手道半决赛 尹笑言晋级空手道四强 尹笑言晋级空手道决赛
13. | D a t a F u n Ta l k 事件语义表示 —— 基于对比学习 对比样本构造 • 解法:参考对比学习构造样本51W • TermWeight删除非核心term • 刘诗雯因伤退出乒乓球女团比赛 • 因伤 -> Delete • 利用改写服务改写/NEL • 郑州一居民用手电为消防员照明 • 手电 -> 电筒 • 消防员 -> 消防队员 模型上借鉴CV领域,对比学习强化Embedding表示 • CVPR2020:Momentum Contrast for Unsupervised Visual Representation Learning Info NCE loss VEC VEC VEC VEC VEC VEC 自监督学习 • Info NCE loss,s表示向量内积 Albert … 重庆大学通报女副教授坠亡 吴亦凡涉嫌强奸被刑拘 缺点 • • … 重庆大学通报女副教授坠亡调查情况 吴亦凡涉嫌强奸罪被警方刑拘 对比语料偏容易,属性特征利用不够 事件样本数量较少,区分能力有限 Deepmind:Representation Learning with Contrastive Predictive Coding
14. | D a t a F u n Ta l k 事件语义表示 —— 基于预训练CWP-Albert/属性增强 事件属性特征增强 • 大规模时效性语料 • Embedding融入分词/词性信息 • 构造属性增强样本 Cosine Similarity MLM VEC • 预训练 • • • VEC Albert 样本构造:3千万数据集 引入QT 点击日志(新闻大卡) 负样本(曝光未点击&三天之前的资源) 𝐸 0 𝐸 1 𝐸 2 𝐸 3 • • 针对属性样本增强,负样本构造42W • 改写人物、数字,动词,反义词 • 都美竹澄清李恩不是姐姐 • 都美竹- >网红 ->李雪琴 对抗学习:Fast Gradient Method • 反向梯度扰动叠加Embedding 𝐸 23 𝐸 24 𝐸 25 𝐸 𝑛 𝐸 𝑛 … 𝐸 𝑛 𝐸 𝑛 𝐸 重庆 𝐸 大学 … 𝐸 查 𝐸 情况 … 𝐸 查 𝐸 情 𝐸 况 𝐸 重 𝐸 庆 𝐸 大 𝐸 学 • 属性增强微调 … 搜索中台分词 CWP-Albert 重庆大学通报女副教授坠亡调查情况 搜索中台分词 重庆大学通报女副教授坠亡
15. | D a t a F u n Ta l k 事件归一 —— 基于合并场景定制化业务逻辑 引入非语义特征 • 存在部分case语义无法解决 • 语义合并具有不可解释,杜绝恶劣case • 解决方案 • 加入后处理:事件时间差的动态阈值 • Thresh = min(0.8 * (0.8 + delta(time)/60), 0.9) • 构建基于少量关键特征比较器模型来辅助投票 英将实施BNO签证政策 中使馆回应 LOC v eng ORG v 同特征按是否交集分桶 A != Ø && B != Ø && A B != Ø A != Ø && B != Ø && A B == Ø A == Ø && B != Ø A == Ø || B == Ø 分析 • 时间差越大,事件误合并概率越高 • 时间差越小,事件漏合并概率越高 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 未合并 6 12 合并错误 18 事件时间差(小时) 中使馆回应英国BNO签证政策 ORG v 最长公共子序列 杰卡德距离 Input Feature Embedding Average Lookup table 32维 人名/地名/组织名/动词/英文/数字/杰西卡距离/ 最长公共子序列等特征分桶 24 36 LOC eng
16. 提纲 • 事件图谱介绍 • 事件图谱构建 • • • • • • 元事件抽取 事件语义表示 事件归一 话题抽取 话题追踪 实体图谱异构关联 • 事件图谱应用 • 近线系统 • QQ浏览器应用 | D a t a F u n Ta l k
17. 话题事件抽取 —— 方案选型 业界方案 TF-IDF+BERT聚类 TF-IDF动态检测 特征抽取/在线聚类 Online Topic Detection and Tracking System 2020 and Its Application on Stock Market in China Hot Topic Detection Based on a Refined TF-IDF Algorithm Story Forest: Extracting Events and Telling Stories from Breaking News LDA+生命周期建模 Extracting and tracking hot topics of micro-blogs based on improved Latent Dirichlet Allocation 2019 SinglePass聚类 An Improved Single-Pass Algorithm For Chinese Microblog Topic Detection and Tracking 2016 TDT 2004 Topic Detection and Tracking Evaluation Overview 2004 | D a t a F u n Ta l k 业界方案缺点 • 话题缺乏统一的定义,优化目标不明确 • 时效性不高,挖掘需要早于用户需求爆发 • 话题是动态进展,需要动态追踪 方案——结构化话题事件抽取 • 基于用户兴趣点和搜索行为 • 提出结构化“Domain-Type-Subject”话题表示 • 社会_死亡_重庆大学女教师
18. | D a t a F u n Ta l k 话题事件抽取 —— Domain-Type-Subject 娱乐 Query侧:需求挖掘 • • 主动搜索 需求准确 时效性较低 资源侧:需求抽取 • • 话题属性词需求泛 时效性高 主体:谢大脚扮演者于月仙 触发词:去世 客体: None 话题属性词:去世 话题类别:去世 PATT:去世_PER Domain_Type_Subject 娱乐_去世_谢大脚扮演者于月仙
19. | D a t a F u n Ta l k 话题事件抽取 —— 话题Type属性词抽取 结合事件Trigger抽取任务,加入话题属性词抽取任务 • • 属性词效果 共享触发词识别的Encoder模型 增加针对话题属性词的抽取任务 准确率 话题属性词 事件Trigger 保罗·沃克22岁爱女宣布闪电结婚 泳池中大秀钻戒 话题属性词 93% 召回率 81% 保罗·沃克22岁爱女宣布闪电 结婚 泳池中大秀钻戒 CRF-Layer CRF-Layer Bi-LSTM Bi-LSTM 话题抽取效果 准确率 话题DTS 82% 召回率 73% 实时入库 PE-Albert 保罗·沃克22岁爱女宣布闪电结婚 泳池中大秀钻戒 娱乐_去世_谢大脚扮演者于月仙 接下来:话题如何追踪呢?
20. | D a t a F u n Ta l k 话题追踪 —— 基于Type/Subject的静态MRC模型 话题:娱乐_去世_谢大脚扮演者于月仙 追踪难点 • Type 2000+,匹配效率低 • Type动态增长,无法分类 事件:于月仙去世原因:车撞上骆驼 解法 • 基于话题体系的MRC模型 • Event_是_Type_subject的最新进展? Sigmoid 娱乐_去世_谢大脚扮演者于月仙 Dense Albert [CLS]于月仙去世原因:车撞上骆驼 [SEP]是 主体为谢大脚扮演者于月仙, 类别为去世 [SEP]的话题的最新进展? 静态表示缺点 效果 版本 模型 ACC AUC baseline 平均相似度 0.8011 0.9048 1 DTS_MRC 0.8312 0. 9268 • • 静态表示泛化能力不足 话题会动态演化,大量动态信息丢失 如何融入事件的动态信息?
21. | D a t a F u n Ta l k 话题追踪 —— 基于Transformer的动态事件MRC模型 动态追踪核心难点 • 如何编码事件动态变化的信息? • 不同事件对话题子事件关注度不相同? 核心改进点 • • Sigmoid 事件作为语义单元,动态加入Transfomer 动态追踪最新进展 Dense Transformer event event event event CWP-Albert Video Transformer Network CVPR2021 版本 模型 ACC AUC baseline 最大相似度 0.8011 0.9048 1 DTS_MRC 0.8312 0. 9268 2 Dynamic_MRC 0.8355 0.942 贝索斯和盖茨前妻捐款4千万 新事件 是如下事件的进展 话题子事件集 … 比尔·盖茨承认自己搞砸了婚姻 比尔·盖茨和梅琳达正式离婚
22. 提纲 • 事件图谱介绍 • 事件图谱构建 • • • • • • 元事件抽取 事件语义表示 事件归一 话题抽取 话题追踪 实体图谱异构关联 • 事件图谱应用 • 近线系统 • QQ浏览器应用 | D a t a F u n Ta l k
23. | D a t a F u n Ta l k 异构融合 —— 事件图谱和实体图谱异构关联 Event Entity Linking • Type 语义分类 Match ACM 2018:Short text entity linking with fine-grained topics AAAI 2018:DeepType: multilingual entity linking by neural type system Priors Ranking evolution • 全局匹配 vote Semantic Web 2018:robust named entity disambiguation with random walks • 全局匹配:KG Embedding Relation Score • 局部匹配:MultiChannel-TinyBert Match Sigmoid Sigmoid Sigmoid Classification Sigmoid Dense Dense Entity Labels Dense Dense CLS C1 C2 C3 C4 CLS TinyBERT 模型效果:多通道融合,效果保证 运算效率:多任务联合训练和预测+BERT蒸馏+共享指针 王 ... S_B 李 白 S_E TinyBERT ... 足 李 白 ... 刺 客 角 Entity 色 ...
24. 提纲 • 事件图谱介绍 • 事件图谱构建 • • • • • • 元事件抽取 事件语义表示 事件归一 话题抽取 话题追踪 实体图谱异构关联 • 事件图谱应用 • QQ浏览器落地产品 • 应用基石:近线系统 | D a t a F u n Ta l k
25. | D a t a F u n Ta l k 事件图谱应用——QQ浏览器落地产品 支持QQ浏览器20+业务落地 事件关联话题 热榜 Q关联事件 实体图谱 异构关联 多模事件关联 专题 实体图谱 异构关联
26. | D a t a F u n Ta l k 近线系统 —— 应用落地的基石 计算中间状态 DAG 数据 bdb 索引 mdb 数据应用 算子 统一输出 热搜榜 kafka Topo管理/调度 人工运营源 source Query爆发源 外部榜单爬取 kafka 计算结果 sink 全局调度 流控 对账上报 过滤 存储 Topo执行 api Q链事件 mdb 框词 对账上报 stateful cache PUSH侧挖掘 事件大卡 Dcache kafka 事件脉络 事件话题 Doc资源挖掘 热度 Source 分词 STO 合并 … 话题 性能效果 • 事件生效平均耗时从10min下降到46s • 事件数据稳定性超过99.9% • 算法工程解偶,效率提升超过50% 资源 sink
27. Thanks ! Q & A
28. | D a t a F u n Ta l k 腾讯看点技术

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.131.0. UTC+08:00, 2024-09-08 08:41
浙ICP备14020137号-1 $Map of visitor$