基于知识图谱与BERT的安全领域汉字文本纠错模型
如果无法正常显示,请先停止浏览器的去广告插件。
1. Journal of Computer Applications
计算机应用 2023, 43( S1) : 75 - 80
ISSN 1001-9081
CODEN JYIIDU
文章编号: 1001-9081 (2023) S1-0075-06
2023- 06- 30
http: / / www. joca. cn
DOI: 10. 11772/j. issn. 1001-9081. 2022030474
基于知识图谱与 BERT 的安全领域汉字文本纠错模型
王子斌 1 ,张
全 1 ,谢
聪 1* ,余
沛 2 ,余泓江 2 ,李沣庭 2
(1. 南京中新赛克科技有限责任公司,南京 210000; 2. 重庆市公安局,重庆 400000)
( ∗ 通信作者电子邮箱 xie. cong836@sinovatio. com)
摘 要: 针对安全领域所涉及的文本中存在大量人为混淆的文字的问题, 提出一种基于汉字知识图谱的 BERT
(Bidirectional Encoder Representation from Transformers) 预训练模型, 表征汉字的读音、 字形、 语义三个维度的特征, 构
建纠错算法。首先, 构建汉字知识图谱刻画汉字的读音、 字形拆解、 繁简转换、 汉字与数字转换等属性和关系, 并基于
汉字知识图谱中的读音属性和 node2vec 模型训练得到汉字读音向量; 其次, 基于知识图谱中字形关系构建 node2vec
模型, 得到 node2vec 字形向量, 并结合卷积神经网络 (CNN) 方法训练字形向量, 两者之和作为最终的字形向量; 最后,
基于 BERT 预训练模型, 融合读音、 字形、 语义三维度的向量, 并在不同维度间使用自注意力机制加权求和, 发现错误
字位置并选择正确的候选字。为验证所提模型的有效性, 在安全领域诈骗短信数据集上, 将所提模型与 FASpell、
SpellGCN、 Soft-Masked BERT 进行了对比。实验结果表明, 所提模型的正确率和召回率比 FASpell 分别提升了 24. 7、
21. 6 个百分点, 比 SpellGCN 分别提升了 22. 2、 13. 7 个百分点, 比 Soft-Masked BERT 分别提升了 20. 8、 32. 7 个百分点。
可见该纠错模型能够有效识别安全领域文本的错字, 在网络诈骗文本分类、 要素提取等下游任务中有较好的效果。
关键词: 自然语言处理; 知识图谱; 汉字文本纠错; 图神经网络; node2vec; BERT; 预训练模型
中图分类号: TP391
文献标志码: A
Chinese text error correction model for security field based on
BERT and knowledge graph
WANG Zibin 1 , ZHANG Quan 1 , XIE Cong 1* , YU Pei 2 , YU Hongjiang 2 , LI Fengting 2
(1. Nanjing Sinovatio Technology Company Limited, Nanjing Jiangsu 210000, China;
2. Chongqing Public Security Bureau, Chongqing 400000, China)
Abstract: Aiming at the large number of obfuscated characters in the texts related to the field of security, a BERT
(Bidirectional Encoder Representation from Transformers) pre-training model based on the knowledge graph of Chinese
characters was proposed to represent three characteristics of Chinese characters: pronunciation, glyph and semantics, and to
construct a correction algorithm. Firstly, the knowledge graph of Chinese characters was constructed to describe the
attributes and relations of Chinese characters, such as pronunciation, character decomposition, correspondence between
traditional and simplified Chinese, and switch from characters to numbers. Based on the pronunciation attribute in
knowledge graph, node2vec model was trained to obtain pronunciation vector. Secondly, node2vec model was constructed
based on the relations of glyph to get node2vec glyph vector, and Convolutional Neural Network (CNN) method was used to
train a complementary glyph vector, and the sum of the two was used as the final glyph vector. Finally, the pronunciation
vector, glyph vector and traditional semantic vector were weightedly summed by self-attention mechanism and fed in a BERT
pre-training model to find the error position and select the right candidate word. In order to verify the effectiveness of the
proposed model, the proposed model was compared with three models including FASpell, SpellGCN, and Soft-Masked
BERT based on the fraud SMS (Short Messaging Service) dataset in the security field. Compared with FASpell, accuracy
and recall are increased by 24. 7 and 21. 6 percentage points respectively; compared with SpellGCN, accuracy and recall are
increased by 22. 2 and 13. 7 percentage points respectively; compared with Soft-Masked BERT, accuracy and recall are
increased by 20. 8 and 32. 7 percentage points respectively. Experimental results show that the proposed model can
effectively identify obfuscated errors in security field text, and enhance the effectiveness of downstream tasks such as cyber
fraud text classification and element extraction.
Key words: Natural Language Processing (NLP); Chinese knowledge graph; text error correction; Graph Neural
Network (GNN); node2vec; Bidirectional Encoder Representation from Transformers (BERT); pre-training model
收稿日期: 2022-04-11;修回日期: 2022-08-08;录用日期: 2022-08-15。
作者简介: 王子斌(1991—),男,山西阳泉人,工程师,硕士,主要研究方向:自然语言处理; 张全(1990—),男,安徽芜湖人,高级工程师,硕
士,主要研究方向:自然语言处理; 谢聪(1985—),女,江苏泰州人,工程师,硕士,主要研究方向:自然语言处理; 余沛(1985—),男,重庆人,
工程师,主要研究方向:电子数据; 余泓江(1982—),男,重庆人,工程师,主要研究方向:电子数据; 李沣庭(1987—),男,重庆人,副高级工程
师,硕士研究生,主要研究方向:电子数据。
2. 76
0
计算机应用
案,生成候选纠错查询集,再根据 N-Gram 语言模型、点互信
引言
在安全领域所涉及的短文本中,会有大量人为故意地将
文本进行混淆的数据,例如诈骗短信中通过同音字、相近字、
繁简字等方式将个别字替换,以达到干扰机器识别的目的,如
将“微信”替换为“威信”和将“好评”替换为“好坪”;除此之外
也有部分文本中存在由于输入错误造成的错别字。通过总结
长期相关工作经验,将文本中的常见错误分为如下类型:
1)音近字错误:该错误中既有拼音输入造成的错别字,例
如“我们非常高心”,也有故意人为混淆的情况,如“加我薇新,
给你溜合号”。
2)形近字错误:该错误中可能有部分五笔等输入法造成
的错字,但从实际数据来看,以人为混淆的情况居多,如“新平
台邀请您注卌”。
3)特殊符号替换:本文指代的特殊符号,主要指除常用汉
字、字母、阿拉伯数字、常见标点外的,一般不出现在中文文本
内容中的字符,如冷门汉字、罗马数字、制表符、日文韩文等,
该错误实例中基本都是人为混淆,如“帮我打流氺”。
如果不对这类错字进行处理,必然增加人工校验成本,导
致相关下游算法模型(包括识别欺诈短信、要素提取、语义识
别)的效果受到影响。如何对人为干扰的错误进行合理纠错
是安全领域所面临的十分有意义的问题,也是本文重点解决
的问题。
对比现有中文文本纠错方法,本文方法主要具有以下
特点:
1)编码“读音”
“字形”和“语义”关系。建立汉字知识图
谱,以获得汉字间的关系,并基于图神经网络将不同类型的关
系编码为“读音”
“字形”两种向量,和预训练所得“语义”向量
融合,共得到 3 个维度的特征向量。
2)改 进 BERT(Bidirectional Encoder Representation from
Transformers)模 型 结 构 ,提 出 一 种 Three-dimensional Soft-
息、点击率等多种判断依据,排序所有的候选纠错查询,选择
置信度最高的纠错结果。统计模型方法对训练语料所包含的
字、词范围大小要求很高 [4] ,需要训练集、测试集同分布,而且
使用 N-Gram 语言模型应避免参数过多,只考虑句子局部信
息,难以有效利用句子中的上下文语境,不能捕捉语句的长距
离依赖关系,
准确率不高,
泛化性较差。
3)深度学习方法:在所有使用深度学习的方法中,比较常
用的有基于 Seq2Seq 的机器翻译模型,该模型将文本纠错任
务转化为带有错误的文本与正确文本进行对应的翻译任务来
处理 [3] 。机器翻译模型的明显优势是可以自动提取语言学特
征 以 及 模 型 对 上 下 文 语 义 的 理 解 能 力 。 文 献[6-7]中 基 于
Transformer 实现了文本纠错算法,解决了长短期记忆(Long
Short-Term Memory, LSTM)网络的长距离依赖问题,增强了模
型对文本语义的理解能力。文献[6]中将残差结构应用到
Transformer 的编码器端或解码器端,帮助模型捕获更丰富的
语义信息,减少因为模型过深带来的梯度消失问题。近年来,
以 BERT 预训练模型为基础的文本纠错技术被广泛应用于处
理文本中的同音字错误和形近字错误,如 Zhang 等 [8] 、 Nguyen
等 [9] 、叶俊民等 [10] 、 Cheng 等 [11] 等的工作均取得了较好的效果。
Zhang 等 [8] 提出的 Soft-Masked BERT 模型框架分为错误检测
网络(Detection Network)与纠错网络(Correction Network)两部
分,通过 Soft Masking 的方式连接,使纠错网络中的 BERT 模型
更好地使用局部上下文信息与全局上下文信息进行拼写纠
错 。 Cheng 等 [11] 提 出 的 方 法 使 用 图 神 经 网 络(Graph Neural
Network, GNN)将发音和形状相似的字符的 word embedding
进行融合,然后使用 BERT 进行字符级别的分类,最后使用
softmax 进行正确字符预测。该方法考虑了发音和形状相似
的字符特征进行融合,但是在检测错字和纠错部分比较简单。
综上所述,虽然在中文纠错领域涌现了众多研究成果,但
Masked BERT 预训练模型,使模型能够学习汉字在“读音”
“字 目前尚未有安全领域文本纠错的针对性研究。本文总结了安
1 错字冷门特殊、掺杂符号数字,纠错难度较大。在安全领域数
形”
“语义”三个维度上的特征,并最终应用于下游纠错任务。
概述
全领域文本中涉及到人为混淆的错误,特点是错误类型繁多、
据集上的测试结果表明,上述中文文本纠错方案无法很好地
现有的中文文本纠错方案主要针对键盘拼写、语音识别、
识别人为干扰的错误。因此,本文充分研究文本中的人为混
光学字符识别(Optical Character Recognition, OCR)等应用中 淆错误的特征,利用 GNN 融合汉字“读音”
“ 字形”
“ 语义”的三
同音字错误和形近字错误,这项任务在很多自然语言处理应 2
经常出现的拼写错误进行识别和纠正。识别的文本错误包括
用中起到了预处理作用。
在中文文本纠错领域,现有的纠错方案可分为以下几类:
1)基于词典的方法
维度向量特征构建端到端的纠错模型。
2. 1
模型结构
问题定义
:基于词典的方法在已有词典的基 安全领域文本纠错旨在应用自然语言处理技术,自动识
础上,使用模糊匹配、编辑距离等方法进行纠错。文献[2]中 别纠正键盘输入和人为混淆的错别字,包括音近字错误、形近
采用编辑距离和权重动态分配的纠错词集进行纠错,特点为 字错误、特殊符号替换等。
[1-2]
例如:输入可能带有错字的文本:
“ 加我薇新
薇新,给你溜
溜合
思想直观、易于实现。由于基于词典的方法能覆盖的错误现
号”。输出为纠正错字后的结果:
“加我微信
微信,给你六
六合号”。
象有限,因此查错纠错的能力有限。
2)统 计 模 型 方 法 :统 计 模 型 方 法 主 要 基 于 N 元 语 法
[3-5]
[3]
(N-Gram) 模型,
优点是统计原理清晰、解释性强。N-Gram
语言模型能够测量单词序列出现的概率,通过计算语句中单
词的联合概率判断它的语法是否正确;文献[4]中完全基于
N-Gram 模 型 和 词 频 - 逆 文 档 频 率(Term Frequency-Inverse
Document Frequency, TF-IDF)权重的方法实现搜索引擎中的
关键词检查和纠错;文献[5]中实现的搜索引擎在线纠错方
2. 2
模型架构
基于知识图谱的多维纠错模型架构如图 1 所示。模型包
括三个部分:基于汉字知识图谱的 node2vec 训练向量,门控循
环网络(Gate Recurrent Unit, GRU)模型分别预测读音、字形
和语义错误概率,以及 BERT 模型纠错。其中, GRU 模型预测
错 误 概 率 ,它 的 输 出 通 过 three-dimensional soft masking
connection 与 BERT 纠错模型连接。本文首先搭建汉字知识
3. 王子斌等: 基于知识图谱与 BERT 的安全领域汉字文本纠错模型
图谱,对每个字符训练“读音”
“字形”
“语义”三维度的向量;然
后,三维度向量分别输入 3 个独立 GRU 模型,预测每个字符的
2. 3
汉字知识图谱
图 1
77
错误概率;最后,融合三维度错误概率输入 BERT 模型从候选
集中选出最相似的字作为召回结果。
Three-dimensional Soft-Masked BERT 模型框架
经过深入分析大量的实际样例,人类之所以能够识别被
为了更加直观显示图谱内容,图 2 列出了“王”在汉字知
识图谱中的部分相关内容。
混淆后的文本,是因为错误的字符与原本的字符在读音、字形
上高度相似 [12-13] 。文献[12]中指出,在 4 100 个中文错误词数
据集中, 76% 与字符语音相似性有关, 46% 与字形相似性有
关, 29% 与这两个因素有关。文献[12]的算法利用了分解汉
字的原理,判断汉字字形相似性,而汉语读音的相似度则是用
经验规则确定。文献[13]中利用 E-How Net 作为汉语词汇的
知识表示,根据汉字语音和字形的相似模式,开发字典辅助检
测可能的拼写错误,实现基于 N-gram 排序倒排索引的检测和
纠错模型;但基于统计模型的混淆集在利用字形相似度方面
灵活性不足。文献[14]中通过图模型的方法将输入句子表示
为有向无环图(Directed Acyclic Graph, DAG),将拼写错误检
测和纠正问题转化为 DAG 上的最短路径问题。
为了更好地表示汉字间的内在关系,通过统一的模型量
化汉字的“读音”
“字形”关系,本文构建了汉字知识图谱,共收
录 20 000 多个汉字、 30 000 多个特殊字符。
图谱节点主要包括如下内容:
1)汉字,例如“大”;
2)拼音音节,例如“dà”;
3)拼音声母,例如“s”;
4)拼音韵母带声调,例如“ā”;
5)汉字部首,例如“钅”;
2. 4
图 2
知识图谱示例
读音特征向量
现有自然语言领域的算法的成功几乎都源于词向量
(word2vec),即将词汇的语义向量化,结果是每个字都有自己
的向量,且上下文间的词向量相似度较高,例如“知”与“道”常
作为彼此的上下文,它们的语义向量相似度为 0. 89,而“知”
与“龙”的向量相似度就只有 0. 13。
本文提出一种基于汉字知识图谱的读音向量训练方法。
6)各类数字,例如“1”; 参考图卷积神经网络的训练方法 [15-16] ,将图谱中同一路径上
8)特殊符号,例如“σ”。 符的读音向量时,只关注与读音相关的路径。
7)常见字母,例如“d”;
的拼音音节作为彼此的上下文,示例如图 3 所示。在训练字
图谱关系主要包括如下内容:
1)读音,例如“大”—读音→ “dà”;
2)拼音声母,例如“dà”—拼音声母→ “d”;
3)拼音韵母,例如“dà”—拼音韵母→ “à”;
4)声母相同,例如“dǎ”—声母相同→ “dì”;
5)韵母相同,例如“dǎ”—韵母相同→ “chà”;
6)平卷舌相似,例如“zhāng”—平卷舌相似→ “zāng”;
7)前后鼻音相似,例如“zhāng”—前后鼻音→ “zhān”;
8)分解,例如“㕸”—分解→ “口”;
9)可合并,例如“口”—可合并→ “立”;
10)繁简对照,例如“閘”—化简→ “闸”;
11)汉 字 转 换 ,例 如“7”— 汉 字 转 换 → “ 七 ”— 汉 字 转
换→ “柒”。
图 3
知识图谱的拼音关系示例
“zhāng”
“ zāng”
“ zì”
“ yī”四个音节互为彼此的上下文,以此
训练 node2vec 直至收敛,最后每个音节得到一个向量,是它们
的读音向量。
“ zhāng”与“zāng”之间有多条路径且距离较近,
4. 78
计算机应用
而“zhāng”与“zī”
“ yī”之间路径极少且距离较远,因此“zhāng” 特征 [17] 。考虑到计算机系统的字符虽然很多,但组成字符的
结果如表 1 所示。 能将字符编码为向量。
与“zāng”的向量相似度应该远大于“zhāng”与“zī”
“ yī”。实际
音节 1
表 1
编码的第一步为训练 CNN 模型。本文中使用 3 500 个汉
读音向量相似度计算
音节 2
相似度结果
zāng
zī
yī
zhāng
zī
yī
zhāng
zāng
基本笔画的数量很少,因此只要捕捉字符的具体字形特征,就
0. 75
0. 15
0. 14
0. 75
0. 32
-0. 06
读音向量将结合语义、字形融合,直接影响纠错的效果。
以“+莪薇新,经晚给你溜盒号”为例,其中的“新”
“ 经”的发音
与其纠正后的发音在读音向量空间内分布如图 4 所示,说明
字 的 不 同 字 体 图 片 作 为 训 练 样 本 ,每 个 字 共 8 种 字 体 ,共
28 000 张训练样本。CNN 模型的目的是使模型忽略字体,正
确 识 别 汉 字 。 最 终 迭 代 10 轮 后 ,模 型 识 别 的 正 确 率 达 到
99. 3%,说明此时模型已经能够很好地捕捉汉字图形中的特
征。将训练好的 CNN 模型对所有字符图片进行一次预测,将
结果的倒数第二层向量作为字符的补充字形向量。
2. 5. 3
字形向量
最 终 的 字 形 向 量 为 CNN 补 充 字 形 向 量 与 知 识 图 谱 中
node2vec 字形向量之和。表 2 列出了部分字形向量的相似度
的结果。
读音向量确实能够表征汉字在读音上的特征。
文字 1
表 2
字形向量相似度计算
文字 2
己
巳
免
勉
韭
业
已
兔
土
相似度结果
0. 89
0. 78
0. 95
0. 64
0. 78
0. 81
以文本“今曰幚莪荬幚莪做事, +莪薇信”为例,图 6 为
“幚”
“莪”
“荬”
“薇”
“曰”分别与其纠正结果在字形向量空间的
分布情况。可以看到字形向量是汉字字形相似度的更精确的
2. 5
图 4
量化,表达了字符的字形结构,基于字形向量可以避免人工规
读音向量的可视化
则的带来的工作量与主观性。
字形特征向量
汉字属于表意体系的文字,汉字造字有表形、表意到形声
等原则,所以汉字字符包含了丰富的信息。在自然语言处理
任务中,运用汉字字形信息能够提升对中文处理的准确性 [17] 。
文献[17]中提出了一种针对汉字字体的田字格-卷积神经网
络模型学习字形信息,在常见的自然语言处理任务(如实体抽
取、文本分类等)中采用字形向量比传统的词向量方法有更高
的准确率和 F1 值。
本文采用两种方式对字形特征进行编码:第一种方法与
读音向量相似,即知识图谱中有关字形关系的 node2vec 模型;
第 二 种 方 法 通 过 卷 积 神 经 网 络(Convolutional Neural
Network, CNN)学习字符的字形特征。最终字符的字形向量
为 CNN 补充字形向量与知识图谱中 node2vec 字形向量之和。
2. 5. 1
基于图计算的字形特征向量
图 5 为汉字知识图谱中一条有关字形关系的路径。以汉
字“薇”为例:
“ 薇”可分解得到“微”,
“ 微”分解得到“山”,
“ 山”
可合并为“出”。
2. 6
图 6
字形向量的可视化
GRU 检测模型
通过汉字知识图谱得到了字符的读音向量和字形向量,
加上表征语义的词向量,每个字符均有 3 个维度的向量,用基
于 3 个维度的特征向量建立纠错模型。但对于特殊符号如
“+”,仅有“读音”
“ 字形”两个向量,其“词义”向量为 0;而对
于某些连读音都没有的符号如“⊥”
(制表符),仅有“字形”向
量,其“读音”
“词义”向量均为 0。
文献[18]中提出了一种包括降噪自动编码器(Denoising
Auto-Encoder, DAE)和 解 码 器 的 范 式 FASPell。 FASPell 模
2. 5. 2
图 5
知识图谱的字形关系示例
基于 CNN 的补充字形向量
CNN 最常被用来处理图像问题,它擅长捕捉图片的局部
型 [18] 使 用 基 于 BERT 的 MLM (Masked Language Model)作 为
DAE 产生候选,解码器利用了字符相似性,在检测水平和纠正
水平均达到了最高的 F1 值。文献[19]中提出的 DPL-Corr 模
型包括检查拼写模块和拼写纠正模块:拼写检查模块是增强
5. 79
王子斌等: 基于知识图谱与 BERT 的安全领域汉字文本纠错模型
的序列标记模型,而拼写校正模块是一个 MLM,以获得最终
的拼写校正。该模型可以显著提高汉语拼写纠错的性能。
本文提出 Three-dimensional Soft-Masked BERT 模型包括
检测模型 GRU 和纠正模型 BERT。首先,将三维度向量分别
输入 3 个 GRU 模型, GRU 模型可以捕捉文本上下文的特征,
输出每个字符的错误概率;其次,将原始三维向量与错误概率
相乘,作为错别字的三维特征向量,此步骤用于发现错误字的
位置;最后,通过 BERT 模型预测该位置上的正确字符。
2. 7 BERT 纠错模型
对错误字符的纠正是基于 BERT 模型 [20] 与前文中的三维
特 征 向 量 ,通 过 Soft Masking 连 接 方 式 在 不 同 维 度 间 进 行
Attention 加权求和,最终输出一个混合向量,接入后续 BERT
模型,输出结果为相应的正确字符。Soft Masking 方法对 3 个
表 3
特征维度之间进行 Attention 计算,能够学习“字形”与“语义”
之间的相关程度,例如带有“木字旁”的字多与植物有关。
GRU 模型输出为每个词在每个维度的错误概率,而经过
“读音”
“ 字形”
“ 语义”三个维度的错误概率融合后,通过将
BERT 模型输出结果与原始语义向量做相似度计算,从备选集
中选出最相似的字作为纠错结果。
3
实验与结果分析
在相同的安全领域数据集上训练 Three-dimensional Soft-
Masked BERT 模型,并与 SpellGCN [11] 、 Soft-Masked BERT [8] 和
FASpell [18] 进行对比,对比项目为前文中所列的 3 种常见错误
类型,即“音近字错误”
“形近字错误”
“特殊符号错误”,它们在
验证集上的识别准确率如表 3 所示。
不同模型的安全领域结果对比
模型 纠错数 正确数 总正确率/% 召回率/%
FASpell
SpellGCN
Soft-Masked BERT
本文模型 695
766
518
707 450
516
356
632 64. 8
67. 3
68. 7
89. 5 53. 4
61. 3
42. 3
75. 0
由表 3 可知:
1)对 于 音 近 字 的 纠 错 ,本 文 模 型 与 SpellGCN、 Soft-
Masked BERT、 FASpell 均表现出不错的效果,音近字纠错正
确率均 90% 以上。与 Soft-Masked BERT 相比,本文模型由于
关注更多维度,音近字的正确率下降了 1. 3 个百分点,但总体
来说在音近字纠错上能够实现良好效果。
2)对于形近字的纠错,本文模型的召回率相比 SpellGCN、
Soft-Masked BERT、 FASpell 取 得 了 显 著 的 提 升 。 原 因 是
Three-dimensional Soft-Masked BERT 模型的基于汉字知识图
谱的字形向量能够表征汉字的形近关系,而 SpellGCN、 Soft-
Masked BERT 和 FASpell 中对于形近字的整理较难,且没有处
理特殊字符。
3) SpellGCN、 Soft-Masked BERT 和 FASpell 中均未涉及特
殊字符处理,因此对该类错误没有识别能力。
4
0. 0
0. 0
0. 0
80. 2
应用
在安全领域的应用场景中,将短文本中的错别字符进行
可以避免涉诈短信的伪基站、网络号码等问题。对涉诈短信
提取要素时,发送方常常使用错字对涉诈要素进行掩盖,如故
意 将“ 网 址 ”写 作“ 罔 纸 ”。 而 本 文 的 Three-dimensional Soft-
Masked BERT 模型能够很好地应对这类问题。表 5 为在同样
的 1 000 条涉诈短信数据集上,本文模型纠错后提升的效果。
实验结果表明,使用 Three-dimensional Soft-Masked BERT
模型进行纠错,能够显著提升涉诈短信中的要素的发现量,进
一步验证了文本方法的有效性和应用价值。
表 5
24. 7 个百分点,整体召回率分别提升了 13. 7、 32. 7、 21. 6 个百
此外,为了验证本文模型在安全领域外的适用性,基于相
特殊字符
58. 1
60. 5
63. 3
75. 6
Resource Locator)等联系方式,对相关要素提取后集中处理,
SpellGCN、 Soft-Masked BERT、 FASpell 分别提升了 22. 2、 20. 8、
Masked BERT 和 FASpell 模型。
形近字
诈骗短信的要素主要为手机号、 QQ 号、微信号、 URL (Uniform
dimensional Soft-Masked BERT 模 型 的 总 体 正 确 率 比
音”
“字形”
“语义”三维特征,纠错效果优于 SpellGCN、 Soft-
92. 2
95. 1
96. 4
95. 1
纠正,提炼正确文本,通常能够提升下游任务的效果。例如,
整 体 而 言 ,在 针 对 安 全 领 域 短 文 本 的 任 务 中 , Three-
分点。Three-dimensional Soft-Masked BERT 模型综合汉字“读
各类错误识别正确率/%
音近字
5
涉诈短信的要素抽取结果比对
短信要素 无纠错识别数量 纠错后识别数量
微信
QQ
URL 259
76
954 384
92
990
结语
本文提出了一种基于汉字知识图谱训练 node2vec 获得汉
同的公开语料分别训练了以上模型,并在 SIGHAN 数据集上 字 的“ 读 音 ”
“字形”
“ 词 义 ”的 向 量 表 达 ,通 过 Three-
Soft-Masked BERT 在形近字的纠错上效果好于其他模型(因 候选汉字的多维纠错技术。本方法主要用于识别纠正安全领
进 行 测 试 ,结 果 如 表 4 所 示 。 整 体 而 言 , Three-dimensional
SIGHAN 数据集中未出现特殊字符的错误,故无此项比较)。
表 4
不同模型在 SIGHAN 数据集的结果对比
模型 正确率 召回率
FASpell
SpellGCN
Soft-Masked BERT
本文模型 70. 1
66. 9
71. 1
78. 5 52. 3
65. 3
51. 7
61. 0
单位: %
各类错误识别正确率
音近字
84. 6
76. 1
85. 2
84. 0
形近字
36. 4
45. 6
38. 2
65. 9
dimensional Soft-Masked BERT 模型识别错别字符,选择正确
域短文本中存在的人为混淆错误,实现结果验证了该技术在
安全行业文本纠错应用中的有效性。未来的工作在于研究如
何提升多字连续错误的应用场景下纠错准确率,探索从语法
层面纠错的模型方法,从而获得符合中文语法、语义更为连贯
的纠错结果。
参考文献 (References)
[1]
杨苏稳,张晓如 . 基于搜索引擎日志的中文纠错方法研究[J] . 软
件导刊, 2020, 19 (6): 182-187.
6. 80
[2]
计算机应用
黄改娟,王匆匆,张仰森 . 基于动态文本窗口和权重动态分配的
中文文本纠错方法[J] . 郑州大学学报(理学版), 2020, 52 (3):
9-14.
[3] 赵国红 . 中文语法纠错方法的研究综述[J] . 现代计算机, 2021,
[4] 胡熠,刘云峰,杨海松, 等 . 搜索引擎的一种在线中文查询纠错
[5] 陈智鹏,吕玉琴,刘华生, 等 . 基于 N-gram 统计模型的搜索引擎
[6] 王辰成,杨麟儿,王莹莹,等 . 基于 Transformer 增强架构的中文语
[7] 李丹丹 . 基于 Transformer 的中文纠错系统设计与实现[J] . 数字
[8] ZHANG S, HUANG H, LIU J, et al. Spelling error correction with
[9]
[10]
[11]
27 (28): 65-69.
方法[J] . 中文信息学报, 2016, 30 (1): 71-78.
法纠错方法[J] . 中文信息学报, 2020, 34 (6): 106-114.
技术与应用, 2021, 39 (12): 213-215.
[14]
[16]
2005. 07421. pdf.
NGUYEN M, NGO G H, CHEN N F. Adaptable filtering using
hierarchical embeddings for Chinese spell check[EB/OL] .[2020-
[17]
LIU C L, LAI M H, TIEN K W, et al.
on Asian Language Information Processing, 2011, 10 (2): 1-39.
YEH J F, LI S F, WU M R, et al. Chinese word spelling
correction based on n-gram ranked inverted index list[EB/OL] .
[2022-06-26] . https: //aclanthology. org/W13-4407. pdf.
JIA Z, WANG P, ZHAO H. Graph model for Chinese spell
passenger flows prediction[C] // Proceedings of the 2018 IEEE
2018: 29-36.
MENG Y, WU W, WANG F, et al. Glyce: Glyph-vectors for
Chinese character representations [ C/OL] // Proceedings of the 33rd
10] . https: //proceedings. neurips. cc/paper/2019/file/452bf208bf9
[18]
01322968557227b8f6efe-Paper. pdf.
HONG Y, YU X, HE N, et al. FASPell: A fast, adaptable,
simple, powerful Chinese spell checker based on DAE-decoder
paradigm[C] // Proceedings of the 5th Workshop on Noisy User-
generated Text. Stroudsburg, PA: Association for Computational
[19]
Linguistics, 2019: 160-169.
XIE H, LI A, LI Y, et al. Automatic Chinese spelling checking
and correction based on character-based pre-trained contextual
representations [C] // Proceedings of the 2019 International
Conference
Visually and
phonologically similar characters in incorrect Chinese words:
LI J, PENG H, LIU L, et al. Graph CNNs for urban traffic
Conference on Neural Information Processing Systems.[2022-10-
[J] . 电子学报, 2021, 49 (2): 401-407.
pdf/2004. 14166v1. pdf.
arxiv. org/pdf/1609. 02907. pdf.
Cloud & Big Data Computing Processing. Piscataway: IEEE,
叶俊民,罗达雄,陈曙 . 基于层次化修正框架的文本纠错模型
phonological and visual similarities into language models for
graph convolutional networks[EB/OL] . [2022-06-28] . https: //
Trusted Computing, Scalable Computing & Communications,
08-27] . https: //arxiv. org/pdf/2008. 12281. pdf.
CHENG X, XU W, CHEN K, et al. SpellGCN: Incorporating
anthology/W13-4416.
KIPF T N, WELLING M. Semi-supervised classification with
SmartWorld, Ubiquitous Intelligence & Computing, Advanced &
soft-masked BERT[EB/OL] .[2020-05-15] . https: //arxiv. org/pdf/
Analyses, identification, and applications [J] . ACM Transactions
[13]
[15]
中文纠错[J] . 中国电子科学研究院学报, 2009, 4 (3): 323-326.
Chinese spelling check [EB/OL] .[2020-04-26] . https: //arxiv. org/
[12]
checking [EB/OL] . [2022-06-26] . https: //www. aclweb. org/
[20]
on
Natural
Language
Processing
and
Computing Processing. Cham: Springer, 2019: 540-549.
Chinese
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of
deep bidirectional transformers for language understanding[C] //
Proceedings of the 2019 Conference of the North American Chapter
of the Association for Computational Linguistics: Human Language
Technologies Processing.
Stroudsburg, PA: Association for
Computational Linguistics, 2019: 4171-4186.