解语：从零样本开始做中文文本知识标注与挖掘

1. 解语：从零样本开始做中文文本知识标注与挖掘赵岷百度知识图谱部研究员

2. 目录 CONTENT 01 解语：介绍 02 解语：百科知识树 03 解语：文本标注挖掘 04 解语：总结与展望

3. 01 解语：介绍

4. 百度语言与知识技术开放平台互联网应用工业应用场景定制平台 TextMind UNIT 智能文档分析平台智能对话定制与服务平台智能创作平台知识中台翻译开放平台内容审核平台搜索 | 问答 | 推荐 | 推理中台能力引擎平台文档标签识别文本要素抽取问答能力引擎智能审校基础算子知识图谱构建知识推理计算语音文本分析文心NLP大模型技术与平台知识应用引擎通用/行业知识图谱知识生产千言解语中文自然语言处理开源数据集中文文本知识标注框架知识组织

5. 背景随着知识图谱技术的进步与普及越来越多的企业用户想要构建自己的知识库但是困难重重 …… 开源知识库不适配领域数据缺少领域样本导致模型效果不佳缺乏领域专家企业知识挖掘困难解语：从零样本开始做中文知识标注与挖掘 …

6. 解语：开源中文知识库 & 知识标注与挖掘框架 https://www.paddlepaddle.org.cn/textToKnowledge 覆盖中文全词类大规模产业应用验证

7. 02 解语：百科知识树

8. 设计思路：中文文本理解需要什么样的通用知识？假设：没有事先构建的实体知识库，怎么理解语言？ • 人为什么能看懂没见过的文本？ – • E.g., 一本架空小说（所有的实体都是事先不知道的）两个知识背景不一样的人为什么能交流？ – E.g., 成年人和小孩、外国人和中国人、不同专业的人

9. 设计思路：中文文本理解需要什么样的通用知识？假设：没有事先构建的实体知识库，怎么理解语言？ • 人为什么能看懂没见过的文本？ – • 两个知识背景不一样的人为什么能交流？ – • E.g., 一本架空小说（所有的实体都是事先不知道的） E.g., 成年人和小孩、外国人和中国人、不同专业的人问题：通用知识是什么？如何描述？如何使用？尚无明确答案

10. 设计思路：中文文本理解需要什么样的通用知识？ • 解语的出发点：从中文词汇理解和句子理解的角度，探索通用知识表征与应用问题 – 构建一个通用且相对稳定的中文词汇知识体系 – 将文本与词汇知识体系相关联 – 让算法对中文句子的理解能力更接近于人

11. 设计思路：中文句子理解需要什么样的通用知识？ • 当一个人看到一个句子：如果事先不知道句子涉及的事实知识，怎么理解这个句子？ • 解语的切入点：人对句子的理解至少包括以下三层， – 理解句子里都有哪些词； – 理解这些词大概的意义，即便有不认识的词，也能大概猜出这个词指的是一个人、一件事、还是一种疾病； – 理解这些词之间的关系，并与脑海里已有的知识关联

12. 词类语义对中文文本理解的重要性英语汉语主语&宾语谓语定语状语名词动词形容词副词词性与句子成分一一对应 wordnet：按名词、动词、形容词、副词分类组织英文单词主语&宾语 VS. 名词谓语动词定语状语形容词副词词兼类现象严重：词无定类 or 类无定职没有词的形态变化词性、句法特征弱依赖“虚词+词序”表达语义中文理解需要比词性、句法特征更强的语义特征

13. 百科知识树：TermTree • 所有中文词汇（包括概念词、实体/ 专名、领域术语、语法词等）统一描述与计算 – 树状概念层次体系：实词按语义类别组织，虚词按词性组织 – 覆盖全量百度百科词条固定的概念集（语义稳定） + 可插拔的实体集（语义不稳定）

14. 语义稳定的概念 VS. 语义不稳定的实体

15. 为什么没有普适的通用实体集？ Entity-linking与知识库问答效果：开放域百科的问题 PV 实体文本库规模越大，越有偏长尾实体的属性值缺失严重 ✓ 知识库与文本集一致 Term数量百科收录实体赵丽颖实体知识文本中的实体文本 × 知识库与文本集不一致 Q： Q： A： A：娱乐人物企业人物赵丽聪实体库 …… 应用定制：避免将实体的特化属性值进行不适当的泛化

16. 基于百科知识树定制自己的词类体系 TermTreeV1.0 开源版 Step1: 筛选termtype / subtype 160+ termtype 词类体系对中文词汇集的全划分 7000+ subtype 便于应用扩展的细分类别常用概念 (src=cb) term集 termtype准确率: 98% 高频百科实体 (src=eb) termtype准确率: 95% Step2: 添加自己的实体集

17. 03 解语：文本标注挖掘

18. 解语：Text To Knowledge 中文文本词类序列标注中文文本知识挖掘百科知识树： TermTree 中文知识标注工具集中文知识挖掘方案 TermType词类体系句子标注工具词类体系定制覆盖中文词汇的词类知识体系概念词/实体词/术语/语法词＋ WordTag 名词短语标注工具 NPTag Term关系和属性值开源知识库中文预训练语言模型实用：大规模产业应用验证易用：PaddleNLP一键调用 ERNIE-CTM 领域词表构建挖掘模板构建用户定制挖掘

19. 中文句子标注工具 —— WordTag 可作为通用NER工具使用 PaddleNLP 一键调用

20. 基于WordTag的Term-linking 基于实体知识库的Entity-linking（实体链指）：文本 Mention识别 KG 候选实体选择实体消歧 Entity-linking 适合文本与实体知识库一致的领域应用通用域难以解决“未收录 or 信息缺失”问题基于TermTree的Term-linking：文本 TermTree WordTag标注基于词类的 Term-linking 同类下的实体消歧 Term-linking 利用词类知识直接进行概念词等的链指，将实体消歧约束在同类下降低任务难度，提升计算效率

21. 中文名词短语标注工具——NPTag 文本语义计算的难点：未收录词（主要为名词/复合名词短语）预置2000+细粒度类别 Output 化训练样本物质 * Prompt-Learning 大规模中文预训练语言模型 Model Input 学杂链聚合物是？？？ NPTag：预测任意名词词类 • 适用于各类挖掘词表 • 直接关联百科知识树 • 可自由定制的分类框架？？ [二][氧][化][硫] 是 [化][学][物][质][* ] [石][竹] 是 [植][物][* ][* ][* ] [罗][伯][特] 是 [人][* ][* ][* ][* ] 基于百度百科义项分布构建，覆盖名词全词类 PaddleNLP 一键调用

22. Demo：文本知识标注与应用

23. Demo：文本知识标注与应用

24. Demo：文本知识标注与应用

25. Demo：文本知识标注与应用

26. Demo：文本知识标注与应用

27. Demo：文本知识标注与应用

28. Demo：文本知识标注与应用

29. Demo：文本知识标注与应用

30. Demo：文本知识标注与应用

31. Demo：文本知识标注与应用

32. 文本知识标注与应用：小结百科知识树 TermTree 通用知识库视频作品世界地区角色作品人物 … … … 场景事件 Text: 孤儿是由亨利执导的剧情片孤儿是由亨利执导的剧情片词汇用语位置方位 … 人物类_实体作品类_实体 … 肯定词介词剧情片电影剧情电视剧剧情电影 … 职业角色孤儿国家导演人物信息类型法国职业 … 国籍形式位置执导肯定词剧中是位置方位肯定词 P:导演 … 应用B：知识特征生成法国 P:职业 P:国籍珍妮·亨利可替换的应用知识图谱概念扩展 & 挖掘匹配《狂人日记》是鲁迅创作的第一个短篇白话日记体小说《澳门风云》是王晶创作执导的合家欢贺岁喜剧赌片数量词导演 P:类型孤儿人物类_概念助词模板生成 [作品类_实体][肯定词|是][人物类_实体][场景事件|执导][作品类_概念|剧情片] 作品类_概念场景事件助词 Text: 亨利是剧中的一名孤儿亨利是剧中的一名孤儿人物类_实体剧情电影应用A：模板生成与匹配 WordTag标注生活用语 … 行政区域知识关联应用文本标注 & 知识关联知识库 … Term-Linking 孤儿作品类_实体孤儿人物类_概念词类特征作品类_实体、人物类_概念、场景事件、位置方位、… 图谱特征上下位特征：查询TermTree SPO特征：查询应用图谱

33. 04 解语：总结与展望

34. 解语：从零样本开始做中文文本知识标注与挖掘 • 百科知识树 à 构建词类知识体系 – 选择应用所需的词类 • 中文知识标注工具集 à 标注文本 – WordTag & NPTag标注 • 整合标注结果 à 构建领域知识 – 基于标注结果聚合 – 模板挖掘

35. 解语：定制自己的解决方案 • 百科知识树 à 构建词类知识体系 – 选择应用所需的词类 • 中文知识标注工具集 à 标注文本 – WordTag & NPTag标注 • 整合应用词表定制WordTag & NPTag 添加自己的词类整合标注结果 à 构建领域知识 – 基于标注结果聚合 – 模板挖掘未来：知识挖掘模型

36. 讨论：预训练语言模型时代，符号知识的作用 • 趋势：Language Models as Knowledge Bases • 符号知识表示：从“显式构建描述性知识”到“与预训练模型协同”

37. 讨论：预训练语言模型时代，符号知识的作用 • 趋势：Language Models as Knowledge Bases • 符号知识表示：从“显式构建描述性知识”到“与预训练模型协同” – 方向1 - 提升展现效果：增强可解释性、可控性 • e.g., SPO知识图谱 – 方向2 - 提升计算/存储效率：减小搜索空间 • e.g., 一条逻辑规则可以覆盖给定条件下的无限数量样本

38. 讨论：预训练语言模型时代，符号知识的作用 • 文本空间的问题：词的数量无限 => 文本组合爆炸 • 思考：如何降低文本空间的描述复杂度? 预训练模型基于语料共现的相似 … • 解语的方案：无限的词 è 有限的词类 … … … … … 【枚举任务空间中无限的点 è 对任务空间进行完整划分】 – 建立统一的词类体系 – 文本的词序列表示 à 文本的词类序列表示互补 … … … … … … 词类知识基于常识的空间划分

39. 解语：词类知识与预训练语言模型的协同一致性检测空间划分、结果校验文本标注&模板生成挖掘模板解析模板预训练语言模型分类 / 序列标注 / 挖掘模型样本优化小样本构建 Case发现知识挖掘词表构建、关系构建 • • • 模型优化：利用知识 “约束解空间的结构”（降低任务难度）样本优化：利用知识“描述样本” ( 提升样本对问题空间的覆盖 && 检测错误样本) 应用效果优化：规则模板与模型结合应用、模型输出结果的规则校验（提升精度）

40. …… 解语利用知识理解语言！访问解语官网了解详细信息： NPTag 名词短语标注 WordTag 文本词类知识标注百科知识树 TermTree

41. 非常感谢您的观看