解语:从零样本开始做中文文本知识标注与挖掘

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 解语:从零样本开始 做中文文本知识标注 与挖掘 赵岷 百度知识图谱部 研究员
2. 目录 CONTENT 01 解语:介绍 02 解语:百科知识树 03 解语:文本标注挖掘 04 解语:总结与展望
3. 01 解语:介绍
4. 百度语言与知识技术开放平台 互联网应用 工业应用 场景定制平台 TextMind UNIT 智能文档分析平台 智能对话定制与服务平台 智能创作平台 知识中台 翻译开放平台 内容审核平台 搜索 | 问答 | 推荐 | 推理中台 能力引擎平台 文档标签识别 文本要素抽取 问答能力引擎 智能审校 基础算子 知识图谱构建 知识推理计算 语音文本分析 文心NLP大模型技术与平台 知识应用引擎 通用/行业知识图谱 知识生产 千言 解语 中文自然语言处理开源数据集 中文文本知识标注框架 知识组织
5. 背景 随着知识图谱技术的进步与普及 越来越多的企业用户想要构建自己的知识库 但是困难重重 …… 开源知识库 不适配领域数据 缺少领域样本 导致模型效果不佳 缺乏领域专家 企业知识挖掘困难 解语:从零样本开始做中文知识标注与挖掘 …
6. 解语:开源中文知识库 & 知识标注与挖掘框架 https://www.paddlepaddle.org.cn/textToKnowledge 覆盖中文全词类 大规模产业应用验证
7. 02 解语: 百科知识树
8. 设计思路:中文文本理解需要什么样的通用知识? 假设:没有事先构建的实体知识库,怎么理解语言? • 人为什么能看懂没见过的文本? – • E.g., 一本架空小说(所有的实体都是事先不知道的) 两个知识背景不一样的人为什么能交流? – E.g., 成年人和小孩、外国人和中国人、不同专业的人
9. 设计思路:中文文本理解需要什么样的通用知识? 假设:没有事先构建的实体知识库,怎么理解语言? • 人为什么能看懂没见过的文本? – • 两个知识背景不一样的人为什么能交流? – • E.g., 一本架空小说(所有的实体都是事先不知道的) E.g., 成年人和小孩、外国人和中国人、不同专业的人 问题: 通用知识是什么? 如何描述? 如何使用? 尚无明确答案
10. 设计思路:中文文本理解需要什么样的通用知识? • 解语的出发点: 从中文词汇理解和句子理解的角度,探索通用知识表征与应用问题 – 构建一个通用且相对稳定的中文词汇知识体系 – 将文本与词汇知识体系相关联 – 让算法对中文句子的理解能力更接近于人
11. 设计思路:中文句子理解需要什么样的通用知识? • 当一个人看到一个句子: 如果事先不知道句子涉及的事实知识,怎么理解这个句子? • 解语的切入点:人对句子的理解至少包括以下三层, – 理解句子里都有哪些词; – 理解这些词大概的意义,即便有不认识的词,也能大概猜出这个词指 的是一个人、一件事、还是一种疾病; – 理解这些词之间的关系,并与脑海里已有的知识关联
12. 词类语义对中文文本理解的重要性 英语 汉语 主语&宾语 谓语 定语 状语 名词 动词 形容词 副词 词性与句子成分一一对应 wordnet:按名词、动词、形容词、 副词分类组织英文单词 主语&宾语 VS. 名词 谓语 动词 定语 状语 形容词 副词 词兼类现象严重 :词无定类 or 类无定职 没有词的形态变化 词性、句法特征弱 依赖“虚词+词序”表达语义 中文理解需要比词性、句法特征更强的语义特征
13. 百科知识树:TermTree • 所有中文词汇(包括概念词、实体/ 专名、领域术语、语法词等)统一 描述与计算 – 树状概念层次体系:实词按语义类 别组织,虚词按词性组织 – 覆盖全量百度百科词条 固定的概念集(语义稳定) + 可插拔的实体集(语义不稳定)
14. 语义稳定的概念 VS. 语义不稳定的实体
15. 为什么没有普适的通用实体集? Entity-linking与知识库问答效果: 开放域百科的问题 PV 实体 文本 库 规模越大,越有偏 长尾实体的属性值缺失严重 ✓ 知识库与文本集一致 Term数量 百科收录实体 赵丽颖 实体知识 文本中的实体 文本 × 知识库与文本集不一致 Q: Q: A: A: 娱乐人物 企业人物 赵丽聪 实体 库 …… 应用定制:避免将实体的特化属性值进行不适当的泛化
16. 基于百科知识树定制自己的词类体系 TermTreeV1.0 开源版 Step1: 筛选termtype / subtype 160+ termtype 词类体系 对中文词汇集的全划分 7000+ subtype 便于应用扩展的细分类别 常用概念 (src=cb) term集 termtype准确率: 98% 高频百科实体 (src=eb) termtype准确率: 95% Step2: 添加自己的实体集
17. 03 解语: 文本标注挖掘
18. 解语:Text To Knowledge 中文文本词类序列标注 中文文本知识挖掘 百科知识树: TermTree 中文知识标注工具集 中文知识挖掘方案 TermType词类体系 句子标注工具 词类体系定制 覆盖中文词汇的词类知识体系 概念词/实体词/术语/语法词 + WordTag 名词短语标注工具 NPTag Term关系和属性值 开源知识库 中文预训练语言模型 实用:大规模产业应用验证 易用:PaddleNLP一键调用 ERNIE-CTM 领域词表构建 挖掘模板构建 用户定制挖掘
19. 中文句子标注工具 —— WordTag 可作为通用NER工具使用 PaddleNLP 一键调用
20. 基于WordTag的Term-linking 基于实体知识库的Entity-linking(实体链指): 文本 Mention识别 KG 候选实体选择 实体消歧 Entity-linking 适合文本与实体知识库一致的领域应用 通用域难以解决“未收录 or 信息缺失”问题 基于TermTree的Term-linking: 文本 TermTree WordTag标注 基于词类的 Term-linking 同类下的 实体消歧 Term-linking 利用词类知识直接进行概念词等的链指,将实体消歧约束在同类下 降低任务难度,提升计算效率
21. 中文名词短语标注工具——NPTag 文本语义计算的难点:未收录词(主要为名词/复合名词短语) 预置2000+细粒度类别 Output 化 训练样本 物 质 * Prompt-Learning 大规模中文预训练语言模型 Model Input 学 杂 链 聚 合 物 是 ? ? ? NPTag:预测任意名词词类 • 适用于各类挖掘词表 • 直接关联百科知识树 • 可自由定制的分类框架 ? ? [二][氧][化][硫] 是 [化][学][物][质][* ] [石][竹] 是 [植][物][* ][* ][* ] [罗][伯][特] 是 [人][* ][* ][* ][* ] 基于百度百科义项分布构建,覆盖名词全词类 PaddleNLP 一键调用
22. Demo:文本知识标注与应用
23. Demo:文本知识标注与应用
24. Demo:文本知识标注与应用
25. Demo:文本知识标注与应用
26. Demo:文本知识标注与应用
27. Demo:文本知识标注与应用
28. Demo:文本知识标注与应用
29. Demo:文本知识标注与应用
30. Demo:文本知识标注与应用
31. Demo:文本知识标注与应用
32. 文本知识标注与应用:小结 百科知识树 TermTree 通用 知识库 视频 作品 世界 地区 角色 作品 人物 … … … 场景 事件 Text: 孤儿是由亨利执导的剧情片 孤儿 是 由 亨利 执导 的 剧情片 词汇 用语 位置 方位 … 人物类_实体 作品类_实体 … 肯定词 介词 剧情 片 电影 剧情电 视剧 剧情 电影 … 职业 角色 孤儿 国家 导演 人物 信息 类型 法国 职业 … 国籍 形式 位置 执导 肯定 词 剧中 是 位置方位 肯定词 P:导演 … 应用B:知识特征生成 法国 P:职业 P:国籍 珍妮·亨利 可替换的应用知识图谱 概念扩展 & 挖掘匹配 《狂人日记》是鲁迅创作的 第一个短篇白话日记体小说 《澳门风云》是王晶创作执 导的合家欢贺岁喜剧赌片 数量词 导演 P:类型 孤儿 人物类_概念 助词 模板生成 [作品类_实体][肯定词|是][人 物类_实体][场景事件|执 导][作品类_概念|剧情片] 作品类_概念 场景事件 助词 Text: 亨利是剧中的一名孤儿 亨利 是 剧中 的 一名 孤儿 人物类_实体 剧情电影 应用A:模板生成与匹配 WordTag标注 生活 用语 … 行政 区域 知识关联应用 文本标注 & 知识关联 知识库 … Term-Linking 孤儿 作品类_实体 孤儿 人物类_概念 词类特征 作品类_实体、人物类_概念、 场景事件、位置方位、… 图谱特征 上下位特征:查询TermTree SPO特征:查询应用图谱
33. 04 解语: 总结与展望
34. 解语:从零样本开始做中文文本知识标注与挖掘 • 百科知识树 à 构建词类知识体系 – 选择应用所需的词类 • 中文知识标注工具集 à 标注文本 – WordTag & NPTag标注 • 整合标注结果 à 构建领域知识 – 基于标注结果聚合 – 模板挖掘
35. 解语:定制自己的解决方案 • 百科知识树 à 构建词类知识体系 – 选择应用所需的词类 • 中文知识标注工具集 à 标注文本 – WordTag & NPTag标注 • 整合应用词表 定制WordTag & NPTag 添加自己的词类 整合标注结果 à 构建领域知识 – 基于标注结果聚合 – 模板挖掘 未来:知识挖掘模型
36. 讨论:预训练语言模型时代,符号知识的作用 • 趋势:Language Models as Knowledge Bases • 符号知识表示:从“显式构建描述性知识”到“与预训练模型协同”
37. 讨论:预训练语言模型时代,符号知识的作用 • 趋势:Language Models as Knowledge Bases • 符号知识表示:从“显式构建描述性知识”到“与预训练模型协同” – 方向1 - 提升展现效果:增强可解释性、可控性 • e.g., SPO知识图谱 – 方向2 - 提升计算/存储效率:减小搜索空间 • e.g., 一条逻辑规则可以覆盖给定条件下的无限数量样本
38. 讨论:预训练语言模型时代,符号知识的作用 • 文本空间的问题:词的数量无限 => 文本组合爆炸 • 思考:如何降低文本空间的描述复杂度? 预训练模型 基于语料共现的相似 … • 解语的方案:无限的词 è 有限的词类 … … … … … 【枚举任务空间中无限的点 è 对任务空间进行完整划分】 – 建立统一的词类体系 – 文本的词序列表示 à 文本的词类序列表示 互补 … … … … … … 词类知识 基于常识的空间划分
39. 解语:词类知识与预训练语言模型的协同 一致性检测 空间划分、结果校验 文本标注&模板生成 挖掘模板 解析模板 预训练语言模型 分类 / 序列标注 / 挖掘模型 样本优化 小样本构建 Case发现 知识挖掘 词表构建、关系构建 • • • 模型优化:利用知识 “约束解空间的结构”(降低任务难度) 样本优化:利用知识“描述样本” ( 提升样本对问题空间的覆盖 && 检测错误样本) 应用效果优化:规则模板与模型结合应用、模型输出结果的规则校验(提升精度)
40. …… 解语 利用知识理解语言! 访问解语官网了解详细信息: NPTag 名词短语标注 WordTag 文本词类知识标注 百科知识树 TermTree
41. 非常感谢您的观看

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-17 22:34
浙ICP备14020137号-1 $Carte des visiteurs$