解语:从零样本开始做中文文本知识标注与挖掘
如果无法正常显示,请先停止浏览器的去广告插件。
1. 解语:从零样本开始
做中文文本知识标注
与挖掘
赵岷 百度知识图谱部 研究员
2. 目录 CONTENT
01
解语:介绍
02 解语:百科知识树
03
解语:文本标注挖掘
04 解语:总结与展望
3. 01
解语:介绍
4. 百度语言与知识技术开放平台
互联网应用
工业应用
场景定制平台
TextMind
UNIT
智能文档分析平台
智能对话定制与服务平台
智能创作平台
知识中台
翻译开放平台
内容审核平台
搜索 | 问答 | 推荐 | 推理中台
能力引擎平台
文档标签识别 文本要素抽取 问答能力引擎 智能审校
基础算子 知识图谱构建 知识推理计算 语音文本分析
文心NLP大模型技术与平台
知识应用引擎
通用/行业知识图谱
知识生产
千言 解语
中文自然语言处理开源数据集 中文文本知识标注框架
知识组织
5. 背景
随着知识图谱技术的进步与普及
越来越多的企业用户想要构建自己的知识库
但是困难重重 ……
开源知识库
不适配领域数据
缺少领域样本
导致模型效果不佳
缺乏领域专家
企业知识挖掘困难
解语:从零样本开始做中文知识标注与挖掘
…
6. 解语:开源中文知识库 & 知识标注与挖掘框架
https://www.paddlepaddle.org.cn/textToKnowledge
覆盖中文全词类
大规模产业应用验证
7. 02
解语:
百科知识树
8. 设计思路:中文文本理解需要什么样的通用知识?
假设:没有事先构建的实体知识库,怎么理解语言?
•
人为什么能看懂没见过的文本?
–
•
E.g., 一本架空小说(所有的实体都是事先不知道的)
两个知识背景不一样的人为什么能交流?
–
E.g., 成年人和小孩、外国人和中国人、不同专业的人
9. 设计思路:中文文本理解需要什么样的通用知识?
假设:没有事先构建的实体知识库,怎么理解语言?
•
人为什么能看懂没见过的文本?
–
•
两个知识背景不一样的人为什么能交流?
–
•
E.g., 一本架空小说(所有的实体都是事先不知道的)
E.g., 成年人和小孩、外国人和中国人、不同专业的人
问题:
通用知识是什么?
如何描述?
如何使用?
尚无明确答案
10. 设计思路:中文文本理解需要什么样的通用知识?
•
解语的出发点:
从中文词汇理解和句子理解的角度,探索通用知识表征与应用问题
– 构建一个通用且相对稳定的中文词汇知识体系
– 将文本与词汇知识体系相关联
– 让算法对中文句子的理解能力更接近于人
11. 设计思路:中文句子理解需要什么样的通用知识?
•
当一个人看到一个句子:
如果事先不知道句子涉及的事实知识,怎么理解这个句子?
•
解语的切入点:人对句子的理解至少包括以下三层,
– 理解句子里都有哪些词;
– 理解这些词大概的意义,即便有不认识的词,也能大概猜出这个词指
的是一个人、一件事、还是一种疾病;
– 理解这些词之间的关系,并与脑海里已有的知识关联
12. 词类语义对中文文本理解的重要性
英语
汉语
主语&宾语 谓语 定语 状语
名词 动词 形容词 副词
词性与句子成分一一对应
wordnet:按名词、动词、形容词、
副词分类组织英文单词
主语&宾语
VS.
名词
谓语
动词
定语 状语
形容词 副词
词兼类现象严重 :词无定类 or 类无定职
没有词的形态变化
词性、句法特征弱
依赖“虚词+词序”表达语义
中文理解需要比词性、句法特征更强的语义特征
13. 百科知识树:TermTree
•
所有中文词汇(包括概念词、实体/
专名、领域术语、语法词等)统一
描述与计算
– 树状概念层次体系:实词按语义类
别组织,虚词按词性组织
– 覆盖全量百度百科词条
固定的概念集(语义稳定)
+
可插拔的实体集(语义不稳定)
14. 语义稳定的概念 VS. 语义不稳定的实体
15. 为什么没有普适的通用实体集?
Entity-linking与知识库问答效果:
开放域百科的问题
PV
实体
文本
库
规模越大,越有偏
长尾实体的属性值缺失严重
✓
知识库与文本集一致
Term数量
百科收录实体
赵丽颖
实体知识
文本中的实体
文本
×
知识库与文本集不一致
Q: Q:
A: A:
娱乐人物
企业人物
赵丽聪
实体
库
……
应用定制:避免将实体的特化属性值进行不适当的泛化
16. 基于百科知识树定制自己的词类体系
TermTreeV1.0 开源版
Step1: 筛选termtype / subtype
160+ termtype
词类体系
对中文词汇集的全划分
7000+ subtype
便于应用扩展的细分类别
常用概念 (src=cb)
term集
termtype准确率: 98%
高频百科实体 (src=eb)
termtype准确率: 95%
Step2: 添加自己的实体集
17. 03
解语:
文本标注挖掘
18. 解语:Text To Knowledge
中文文本词类序列标注 中文文本知识挖掘
百科知识树: TermTree 中文知识标注工具集 中文知识挖掘方案
TermType词类体系 句子标注工具 词类体系定制
覆盖中文词汇的词类知识体系
概念词/实体词/术语/语法词
+
WordTag
名词短语标注工具
NPTag
Term关系和属性值
开源知识库
中文预训练语言模型
实用:大规模产业应用验证
易用:PaddleNLP一键调用
ERNIE-CTM
领域词表构建
挖掘模板构建
用户定制挖掘
19. 中文句子标注工具 —— WordTag
可作为通用NER工具使用
PaddleNLP 一键调用
20. 基于WordTag的Term-linking
基于实体知识库的Entity-linking(实体链指):
文本
Mention识别
KG
候选实体选择
实体消歧
Entity-linking
适合文本与实体知识库一致的领域应用
通用域难以解决“未收录 or 信息缺失”问题
基于TermTree的Term-linking:
文本
TermTree
WordTag标注
基于词类的
Term-linking
同类下的
实体消歧
Term-linking
利用词类知识直接进行概念词等的链指,将实体消歧约束在同类下
降低任务难度,提升计算效率
21. 中文名词短语标注工具——NPTag
文本语义计算的难点:未收录词(主要为名词/复合名词短语)
预置2000+细粒度类别
Output
化
训练样本
物
质
*
Prompt-Learning
大规模中文预训练语言模型
Model
Input
学
杂
链
聚
合
物
是
?
?
?
NPTag:预测任意名词词类
• 适用于各类挖掘词表
• 直接关联百科知识树
• 可自由定制的分类框架
?
?
[二][氧][化][硫] 是 [化][学][物][质][* ]
[石][竹] 是 [植][物][* ][* ][* ]
[罗][伯][特] 是 [人][* ][* ][* ][* ]
基于百度百科义项分布构建,覆盖名词全词类
PaddleNLP 一键调用
22. Demo:文本知识标注与应用
23. Demo:文本知识标注与应用
24. Demo:文本知识标注与应用
25. Demo:文本知识标注与应用
26. Demo:文本知识标注与应用
27. Demo:文本知识标注与应用
28. Demo:文本知识标注与应用
29. Demo:文本知识标注与应用
30. Demo:文本知识标注与应用
31. Demo:文本知识标注与应用
32. 文本知识标注与应用:小结
百科知识树
TermTree
通用
知识库
视频
作品
世界
地区
角色
作品
人物
…
…
…
场景
事件
Text: 孤儿是由亨利执导的剧情片
孤儿 是 由 亨利 执导 的 剧情片
词汇
用语
位置
方位
…
人物类_实体
作品类_实体
…
肯定词 介词
剧情
片
电影
剧情电
视剧
剧情
电影
…
职业
角色
孤儿
国家
导演
人物
信息
类型
法国
职业
…
国籍
形式
位置
执导
肯定
词
剧中
是
位置方位
肯定词
P:导演
…
应用B:知识特征生成
法国
P:职业
P:国籍
珍妮·亨利
可替换的应用知识图谱
概念扩展 & 挖掘匹配
《狂人日记》是鲁迅创作的
第一个短篇白话日记体小说
《澳门风云》是王晶创作执
导的合家欢贺岁喜剧赌片
数量词
导演
P:类型
孤儿
人物类_概念
助词
模板生成
[作品类_实体][肯定词|是][人
物类_实体][场景事件|执
导][作品类_概念|剧情片]
作品类_概念
场景事件 助词
Text: 亨利是剧中的一名孤儿
亨利 是 剧中 的 一名 孤儿
人物类_实体
剧情电影
应用A:模板生成与匹配
WordTag标注
生活
用语
…
行政
区域
知识关联应用
文本标注 & 知识关联
知识库
…
Term-Linking
孤儿 作品类_实体 孤儿 人物类_概念
词类特征
作品类_实体、人物类_概念、
场景事件、位置方位、…
图谱特征
上下位特征:查询TermTree
SPO特征:查询应用图谱
33. 04
解语:
总结与展望
34. 解语:从零样本开始做中文文本知识标注与挖掘
•
百科知识树 à 构建词类知识体系
– 选择应用所需的词类
•
中文知识标注工具集 à 标注文本
– WordTag & NPTag标注
•
整合标注结果 à 构建领域知识
– 基于标注结果聚合
– 模板挖掘
35. 解语:定制自己的解决方案
•
百科知识树 à 构建词类知识体系
– 选择应用所需的词类
•
中文知识标注工具集 à 标注文本
– WordTag & NPTag标注
•
整合应用词表
定制WordTag & NPTag
添加自己的词类
整合标注结果 à 构建领域知识
– 基于标注结果聚合
– 模板挖掘
未来:知识挖掘模型
36. 讨论:预训练语言模型时代,符号知识的作用
• 趋势:Language Models as Knowledge Bases
• 符号知识表示:从“显式构建描述性知识”到“与预训练模型协同”
37. 讨论:预训练语言模型时代,符号知识的作用
• 趋势:Language Models as Knowledge Bases
• 符号知识表示:从“显式构建描述性知识”到“与预训练模型协同”
– 方向1 - 提升展现效果:增强可解释性、可控性
• e.g., SPO知识图谱
– 方向2 - 提升计算/存储效率:减小搜索空间
• e.g., 一条逻辑规则可以覆盖给定条件下的无限数量样本
38. 讨论:预训练语言模型时代,符号知识的作用
• 文本空间的问题:词的数量无限 => 文本组合爆炸
• 思考:如何降低文本空间的描述复杂度?
预训练模型
基于语料共现的相似
…
•
解语的方案:无限的词 è 有限的词类
… …
… … …
【枚举任务空间中无限的点 è 对任务空间进行完整划分】
– 建立统一的词类体系
– 文本的词序列表示 à 文本的词类序列表示
互补
…
…
…
…
…
…
词类知识
基于常识的空间划分
39. 解语:词类知识与预训练语言模型的协同
一致性检测
空间划分、结果校验
文本标注&模板生成
挖掘模板
解析模板
预训练语言模型
分类 / 序列标注 / 挖掘模型
样本优化
小样本构建
Case发现
知识挖掘
词表构建、关系构建
•
•
•
模型优化:利用知识 “约束解空间的结构”(降低任务难度)
样本优化:利用知识“描述样本” ( 提升样本对问题空间的覆盖 && 检测错误样本)
应用效果优化:规则模板与模型结合应用、模型输出结果的规则校验(提升精度)
40. ……
解语
利用知识理解语言!
访问解语官网了解详细信息:
NPTag
名词短语标注
WordTag
文本词类知识标注
百科知识树
TermTree
41. 非常感谢您的观看