基于新型文本块分割法的简历解析

如果无法正常显示，请先停止浏览器的去广告插件。

1. / /www． h t t s kx． c om p: j j DOI: １０．１１８９６/ s kx．１９０８００１３５ j j 基于新型文本块分割法的简历解析祖石诚王修来曹东部战区总医院博士后站摘要阳张玉韬梁珊南京２１００００近些年, 基于神经网络的文本分类器和词嵌入在自然语言处理中被广泛应用.然而, 传统的简历解析器采用基于关键字的模糊匹配或正则表达式来进行文本块分割.文中提出了一种基于神经网络文本分类器和词向量的端到端的管道来进行简历解析.新的文本块分割法充分利用了基于简历行的位置信息和每个文本块内信息集成关联的性质.行类别分类器和行标签分类器对简历行的协调分类能有效地将一份简历分割成预定义标签的文本块.该简历解析管道能把上游的文本块分割与下游的具体信息识别结合起来.在具体信息抽取中, 各种序列标注分类器在已被分割的文本块中识别命名实体.与４种序列标注分类器的识别性能对比, 确立了 BLSTMＧCNNs ＧCRF 在命名实体识别中的优势.与其他３种已经发表的简历解析器的对比评估, 验证了所提文本块分割法的有效性. 关键词: 简历解析; 文本分类器; 词向量; 命名实体识别; 序列标记分类器中图法分类号 TP３９１．１ Re s umePa r s i ngBa s e donNo v e lTe x tB l o ckS e t a t i on Me t hodo l o gmen g y ZUSh i Ｇ cheng,WANG Xi u Ｇ l a i, CAO Yang, ZHANG Yu Ｇ t aoandLIANGShan Po s t Ｇ do c t o r a lSc i en t i f i cRe s e a r chS t a t i oni nEa s tWa rDi s t r i c tGene r a lHo sp i t a l, Nan i ng２１００００, Ch i na j Ab s t r a c t I nr e c en tye a r s, t ex tc l a s s i f i e randwo r dembedd i ngba s edonneu r a lne two r khavebe enwi de l edi nna t u r a ll anguage yus r o c e s s i ng． Howe ve r, t r ad i t i ona lr e sumepa r s e r sr e l r dsba s edf u z z t ch i ngo rr egu l a rexp r e s s i onf o rt ex tb l o cks eg Ｇ p yonkeywo yma men t a t i on． Th i spape rp r opo s edanend Ｇ t o Ｇ endp i l i nef o rr e sumepa r s i ngba s edonneu r a lne two r kt ex tc l a s s i f i e randwo r dve c Ｇ pe t o r． Th i snove lt ex tb l o cks egmen t a t i ona l r i t hml e ve r age st hepo s i t i on Ｇwi s el i nei n f o rma t i onandi n t eg r a t ed me an i ngso fe a ch go t ex tb l o ck． Thec oo r d i na t edc l a s s i f i c a t i ono fr e sumel i ne sbybo t hl i net l a s s i f i e randl i nel abe lc l a s s i f i e re f f e c t i ve l egmen t sa ypec ys r e sumei n t ot ex tb l o ckso fp r ede f i nedl abe l． Thep r opo s edp i l i nec omb i ne st heups t r e amt ex tb l o cks egmen t a t i onwi t ht hedown Ｇ pe s t r e amspe c i f i ci n f o rma t i onr e c ogn i t i on． I nspe c i f i ci n f o rma t i onex t r a c t i on, va r i ouss e el abe l i ngc l a s s i f i e r spe r f o rmnameden Ｇ quenc t i t e c ogn i t i oni nt hes egmen t edt ex tb l o cks．Compa r a t i vee va l ua t i ono ff ou rs e el abe l i ngc l a s s i f i e r sc on f i rmsBLSTMＧ yr quenc CNNs ＧCRF’ ssupe r i o r i t nnameden t i t e c ogn i t i on． Fu r t he rc ompa r a t i vee va l ua t i onwi t ho t he r３pub l i shedr e sumepa r s e r sa l s o yi yr ve r i f i e st hee f f e c t i vene s so ft hep r opo s edb l o ckc l a s s i f i c a t i onme t hod． Ke r d s Re sumepa r s i ng, Tex tc l a s s i f i e r,Wo r dve c t o r, Nameden t i t e c ogn i t i on, Se el abe l l i ngc l a s s i f i e r yr quenc ywo １引言最近十年, 求职招聘从传统的招聘会快速转变为了第三等.简历布局的多样性降低了简历解析的有效性, 同时也进一步影响了候选人推荐.这些因素常常导致一部分优秀的求职者疑惑自己的简历为什么没有出现在候选人名单中. 方在线招聘.简历是求职者向公司人力资源或猎头展示自身一份典型的简历通常采用文档级别的分层结构, 表现为技能和经验的正式文件. 据不完全统计, 一些知名的第三方相关的概念或事实被分组在同一文本块中.求职者把不同类招聘门户每年会收到３０００万份来自求职者上传的个人简历. 别的文本块以连续任意的顺序排列.文本块的一般类别包括这些海量个人数据因具有巨大的潜在应用价值吸引了全世界个人信息、求职意向、自我评价、教育背景、工作经历、项目经学者的目光, 潜在应用包括简历推荐、简历实体建立、求职者历、专业和语言技能、兴趣爱好、荣誉成就、文献发表和推荐人建模和简历管理等.然而, 求职者经常按照自己的思路撰写等.具体信息如个人信息中的电话号码或教育背景中的毕业简历并把它们上传到招聘平台的数据库中, 导致了简历格式院校等, 能从特定文本块中提取. 如字体、字号、字体颜色等五花八门.求职者通常以表格或自然段的形式排版简历. 在对比大量简历的过程中, 我们发现简历的书写习惯不能保持统一, 具体表现为同一文本块的标题会被各种近义词我们将简历的解析过程标准化, 重点关注６种文本块的一般类别: 个人信息、教育背景、工作经历、项目经历、专业技能和文献发表.我们认为这６类一般类别从本质上反映了求职者的才能和经验.其他字段, 例如兴趣爱好、领导才能和推或词组表示, 对文本块的排列顺序也是不固定的.此外, 求职荐人会根据不同简历时有时无, 不在我们的研究范畴之内. 者保存简历为各种文件类型, 例如 TXT, PDF 和 DOCX 文档表１整理了这６种一般类别字段和１９种具体信息字段. 目本文已加入开放科学计划( OS ID), 请扫描上方二维码获取补充信息. 通信作者: 祖石诚( z s c １９８８４１９＠１６３． c om)

2. Compu t e rSc i enc e 计算机科学 Vo l．４７, No．６A, June２０２０９６前主流的简历解析器利用词汇特征( 如关键字匹配) 对简历进行文本块分割.基于每个文本块, 系统通过不同特征组合, 例如词汇特征、文本特征、命名实体特征和视觉特征识别出具体的简历信息.本文提出的以神经网络为基础的简历信息抽取表１简历信息抽取的信息字段工作经历项目经历文本块中识别出命名实体 [６] . ２．２网页简历的信息抽取中提取信息和模式 [７] . 在文件对象模型中, 内部节点表示属性, 叶子节点表示具体信息. 标签树算法能将各种网页解析 Tab l e１ I n f o rma t i onf i e l dsex t r a c t i ono fr e sumei n f o rma t i on 教育背景信息.简历分割器把简历分割成文本块.概念识别器从这些 J i 等基于文件对象模型设计的标签树算法能从网页简历算法避免了额外的特征构建. 个人信息割器和概念识别器 [６] . 表格分析器将表格分类, 并从中提取专业技能文献发表文献名称姓名本科院校公司名称项目名称语言能力家庭住址研究生院职位名称项目周期计算机技能电话号码毕业日期工作周期项目描述邮箱地址专业名称职位描述成标签树, 并通过计算树的相似度获取标签树模板 [７] . 标签树模板将简历解析成独立的文本块, 之后通过查询重复模式或启发式规则抽取具体信息.EXPERT 是一款基于本体论为求职者建模的简历推荐系统 [８] .该系统为个人简历和招聘学位名称广告分别建立本体论文档, 之后通过计算招聘广告本体和简本文在简历信息抽取应用中做出了以下２方面创新性历本体之间的相似度筛选出合格的求职者 [８] .C i r avegna 等首先, 本文提出了一种新的文本块分割法. 此分割法基算法通过归纳训练语料库中被 XML 标签标记的实例学习标贡献. 于行的位置信息和文本块内信息集成关联的特点, 采用了基于神经网络的文本分类器与词向量.词向量能有效地解决数据稀疏问题, 并能从语法和语义中对规律和模式进行归纳. 行类别分类器和行标签分类器通过对简历行的协调性分类, 能有效地按预定义标签将简历分割成文本块.５种文本分类器的定量对比, 确定了 At t en t i onBLSTM [ １] 在简历行分类中的优势, 同时 At t en t i onBLSTM 对长句和短句分类表现出了良好的鲁棒性.与３种已经发表的简历解析器的定量对比, 确立了 At t en t i onBLSTM 在文本块分割中的优势. 其次, 本文提出了一种端到端的简历信息抽取管道. 该管道能够把文本块分割和简历具体信息识别结合起来.４种采用 LP ２算法提出了基于规则的自适应简历解析器 [９] . 该记规则, 并通过训练引导出一系列标记规则 [９] . 浅层自然语言处理被用来对词序列规律进行归纳 [９] .Zhang 等提出了 “ 分割－识别－反馈－收敛－输出 ” 的信息检索方案, 并为中华英才网开发了一款简历解析器 [１０] . 该系统把文本块分割模块、信息识别模块和循环控制模块放入一个反馈回路. 在这个反馈回路的作用下, 当解析收敛相对稳定时, 所有的具体信息将被识别 [１０] . ３以神经网络为基础的简历信息抽取算法３．１简历文本块分割求职者通常按照传统规则排列文本块, 将个人信息放置以神经网络为基础的序列标注分类器的对比评估, 证实了在文档的顶部, 之后是教育背景、工作经历、项目经历、专业技 BLSTMＧCNNs ＧCRF 能有效地进行命名实体识别. 能和文献发表.相关联的事实被分组在同一文本块.简历行 [ ２] 的位置信息和文本块中相关联的词表征为文本块分割提供了２相关工作重要线索.目前, 大多数主流简历解析器在预处理阶段使用目前, 简历可被分为两类: 纯文本和结构化标记文本. 针对纯文本设计的信息抽取算法通常避免对结构化标记文本进 Ti ka 等工具去除格式信息, 之后在纯文本上使用正则表达式或自定义规则分割简历 [３Ｇ４] . 格式的去除导致了位置信息的行泛化, 因为这类算法是基于词汇和语法的, 没有利用结构化丢失, 这些位置信息本应该提供额外的分类能力.另外, 正则的超语言元素.相反, 针对结构化标记文本设计的信息抽取表达式和自定义规则如果没有被优良设计, 会导致使用受限. 算法不能有效地解析纯文本, 因为它们无法解决数据稀疏相对于关键字模糊匹配, 深度学习算法具备更好的鲁棒性和问题. 适应性.我们提出的基于神经网络的文本块分割法免除了机２．１纯文本简历的信息抽取 Yu 等提出了基于语义的级联混合模型器学习对特征构造的要求. .首先, 他们使 [ ３] 基于以下３方面原因, 我们提出了这一模型.１) 神经网用隐马尔可夫模型(Hi dden Ma r kov Mode l,HMM) 将简历分络提取的特征相比于传统手工特征能从文本中传递更多的语 ( Suppo r tVe c t o rMa ch i ne, SVM) 从教育背景和个人信息中提到数据稀疏问题的影响.２) 词向量相比于手工特征能更好地这个算法提出了一种新的语法特征 Wr i t i ngS t l e, 来为简历 y 仅需要根据下游的分类标签进行调参即可. 割为连续的文本块, 然后分别使用 HMM 和支持向量机取具体信息.Chen 等提出了两步法的简历信息抽取算法 . [ ４] 的句子建模. Wr i t i ngS t l e 按照句子的构成, 把句子分成３ y 义信息, 例如背景信息、词序等; 神经网络提取的特征较少受表征词.３) 词向量使用方便. 文本分类器作用于它们之后, 本项目提出的文本块分割法训练两种行分类器: 行类别种类型: 简单、键值对和复合体 [４] .简历应用这种语法特征后分类器和行标签分类器. 行类别分类器根据简历的大体布标注出具体信息.考虑到简历会以表格的形式呈现, PINTO 通常占据文档顶部, 通常包含页码、单位标识、章节标题和通会生成半结构化数据.文本分类器在生成的半结构化数据中局, 将简历划分为４个区域: 页眉、内容、元数据和页脚. 页眉等借助条件随机场模型 ( Cond i t i onRandom F i e l d, CRF) 把表讯地址等.在简历中, 求职者也经常将个人信息包括在页眉 .PROSPECT 是一款在线简历推荐系统, 它允许筛选人文件创建日期/修改日期等.页脚占据文档底部, 通常包括页 PROSPECT 简历解析器由３部分构成: 表格分析器、简历分标签分类器进一步完善.行标签分类器基于６种文本块一般格行分类为预定义的功能标签, 例如表格头、分隔符和数据行 [ ５] 员根据设定的过滤条件或关键字组合快速定位候选人 . [ ６] 中.内容是简历的主体.元数据与文件信息相关, 包括作者、码和推荐人等.行类别分类器对简历的大致分割被精细的行

3. ９７祖石诚, 等: 基于新型文本块分割法的简历解析类别: 个人信息、教育背景、工作经历、项目经历、专业技能和学位名称、职位名称、编程技能和语言技能等.我们花费了很文献发表.我们预期这两种分类器的协同分类会生成连续的多精力, 从各种渠道收集了命名实体标准字典. 官方认可的行标签簇.在每个行标签簇中, 所有行的标签相同, 为文本块本科院校和研究生院名称、官方授予的学位名称、学校注册登分割提供了边界. 记的专业名称均能从教育部官方网站获得; 地名辞典由民政为了以合适的格式将训练集放入神经网络分类器中, 我局定期更新; 工商局对企业的官方名称进行定期维护; 而招聘们需要把简历文本的行列表映射为词向量集合.为了实现这职位名称和专业技能则可以从第三方招聘平台获取.这些收一目的, 我们首先基于简历语料库训练词嵌入. 首先把５０００集的命名实体特征以 BIO 标注格式来训练序列标注分类器. 标点为空格统一了标点符号.收集到的行总数为７５０００. 我概率分布.为了将识别出来的命名实体与标准维度名称对接作用于行语料库训练词嵌入, 词嵌入的参数会在训练中被实体间的余弦相似度, 并据此对命名实体做聚类处理. 份简历的行列表以连结的形式聚集起来, 然后通过替换各种们将 gens im 工具包中的 Wo r d２Ve c [ １１] 模型作为默认模型直调节.将词嵌入的维数设置为３００, 生成的词嵌入以． b i n 格式保存.我们循环地从每一行中分离出行类别、行标签和行内容.在去除停用词后, 行片段的每一个词被标记解析. 通过在词嵌入 W wr d ∈R R d W | V | 查询词汇索引 v , 每个词被转换为 i 分类器结束训练时, 按照标签类别它对一句话中的短语计算应, 我们采用 k Ｇme ans 算法根据文档频率 ( TFIDF) 计算命名在本项目中, 我们根据命名实体识别性能和解码速度对 [ ] 比了以下４种主流的序列标记分类器, 即 B i ＧLSTMＧCRF １６ , [ ] [ ] [ ] B i ＧGRUＧCRF １７ , IDCNNＧCRF １８和 BLSTMＧCNNs ＧCRF ２ . １) B i ＧLSTMＧCRF.这种模型把双向长短期记忆网络( B i Ｇ v , i 的值取在０到 | V |－１之间. 句 d i r e c t i ona lLongSho r t ＧTe rm Memo r B i ＧLSTM) 和条件随机 y, T 的值取句子的长度. 将各种文本分类器作用于词向量集集合后, 与额外的特征连结, 连结得到的向量作为 B i ＧSLTM 对应的词向量 e i ＝ W wr d i 子层面的词向量被表示为词向量集合 emb s ＝ { e １ , e ２ ,?, e T }, 合, 根据预定义标签训练文本分类器. 我们考虑以下５种文本分类器. １) Tex t ＧCNN.为了分类简历行, Tex t ＧCNN 的卷积层作用于词向量集合的训练模型参数 [１２] . 模型的词向量参数保场模型结合起来, 形成 B i ＧLSTMＧCRF.词序列转换为词向量的起始输入.正反方向上的隐藏层输出被连结, 通过映射为每个序列标签计算概率分布.最后, 由 CRF 层缓解数据稀疏问题. ２) B i ＧGRUＧCRF.在这种模型中, 双向门控循环单元( B i Ｇ持不变, 模型根据预定义类别通过反向传播调参.Tex t ＧCNN d i r e c t i ona lGa t edRe cu r r en tUn i t, B i ＧGRU) 将词向量和文本特征图谱中找出最具分辨力的特征 [１２] . 被放入 CRF 层对标签序列进行联合解码. 使用固定大小的滑动窗口捕获背景特征, 最大池化层能在特２) RCNN.当学习词表征时, 相比于 CNN, RCNN 使用双向循环结构捕获更多的背景信息 [１３] .RCNN 也保留了征作为输入.堆叠的 B i ＧGRU 与 CRF 结合.B i ＧGRU 的输出３) IDCNNＧCRF.CNN 因其固定大小的滑动窗口, 对背景信息表征有一定限制. 迭代扩张卷积 ( I t e r a t ed Di l a t ed CNN 最大池化层的分辨力, 即在一个文本中找出关键的特 Convo l u t i ons, IDＧCNNs) 通过堆叠扩张卷积层可以解决这一３) Adve r s a r i a lLSTM.对抗训练被证实是有效的正则化能在不损失分辨率的前提下概括全局背景信息. 传统的征 . [ １３] 策略 .Adve r s a r i a lLSTM 在词嵌入中加入了干扰, 不仅能 [ １４] 提高模型对过拟合的鲁棒性, 也能提高原始词嵌入的质量 . [ １４] ４) At t en t i onBLSTM.单方向 LSTM 仅以从左到右的方问题.扩张卷积层中的扩张宽度呈指数增长.这些扩张卷积 CNN 卷积转化相邻的输入, 而扩张卷积通过每次跳过 δ 个输入转化更为宽泛的输入, δ 为扩张宽度. 除此之外, IDCNNＧ CRF 允许卷积运算在整个文档中以并行模式计算. ４)BLSTMＧCNNs ＧCRF.BLSTMＧCNNs ＧCRF 是一种端式处理词序列, 双向 LSTM 通过引入反向 LSTM 弥补了这一到端的序列标记神经网络模型, 除了词向量, 不需要额外构建缺点.对于每个词来说, 两个隐藏层以相反方向流动生成一特征或进行数据预处理.该模型充分利用了词表征和字符表个连结的隐藏层.此模型能学习过去和未来的背景信息. 除征, 这些表征向量被放入 B i ＧLSTM 中对每个词的背景信息进此之外, 模型还引入了一个注意机制, 即在一句话中找出对文本分类起决定性的关键词. ５) Tr ans f o rme r.Tr ans f o rme r 是一个连接编码器和解码器的序列转导模型 . 该模型通过多头注意机制 (Mu l t i Ｇ [ １５] He adAt t en t i on Me chan i sm) 在输入和输出之间获取全局依赖.自身注意机制将一个序列的不同位置关联, 用以计算句子表征.在两个任意的输入和输出之间传递信号所需的运算量是一个常量, 允许并行计算. ３．２简历信息识别３．２．１文本序列标记行类别分类器和行标签分类器对简历行的协同分类确立了文本块间的边界.接下来的任务就是利用命名实体从每个文本块中识别获取具体信息.命名实体识别在每句话的短语中标注出命名实体的键, 例如家庭住址、毕业院校、专业名称、行建模. ３．２．２文本特征 B i ＧLSTMＧCRF, B i ＧGRUＧCRF 和 IDCNNＧCRF 除了使用词向量, 还能使用文本特征作为模型输入. 文本特征捕获词本身的变化.本项目抽取各种文本特征作为词向量的补充识别命名实体.我们使用的文本特征如下: １) 以大写字母开头; ２) 所有字母均为大写; ３) 包含不是首字母大写的大写字母; ４) 以数字开头; ５) 所有的字符都为数字; ６) 混合字母和数字; ７) 是否包含标点; ８) 是否包含符号;

4. Compu t e rSc i enc e 计算机科学 Vo l．４７, No．６A, June２０２０９８９) 是否包含省略符号; １０) 是否包含首字母缩写. 我们为命名实体识别提取了３万的文本特征.在训练序１． f o re a chl i ne∈l i ne sdo ２． dol i net l a s s i f i c a t i on ypec ３． dol i nel abe lc l a s s i f i c a t i on 列标记模型过程中, 我们处理文本特征的方式与词向量相同. ４． endf o r 因此, 神经网络的输入包括词向量和文本特征. Huang 等 [１６] ６． dol i nel abe lc l us t e r s 报道, 直接将词的拼写特征或背景特征与输出层相连不仅能５． f o re a chl i ne∈l i ne sdo ７． endf o r 提升模型训练的效率, 而且不会降低模型的标注精确率. 本８． r e c o r da l lt ex tb l ocks 项目也利用了这一技术将文本特征与 CRF 输出层直接相连, １０．避免了潜在的特征冲突. 图１通过一个实例说明这一技术. 输入的词序列是 “ Pr og r amme r sus ePy t hona tGoog l e”, 在这里“ Pr og r amme r s”“ Py t hon” 和 “ Goog l e” 是３个待识别的命名实体.我们使用标准的 BIO 格式注解命名实体识别, 其中 B 代表开始, I 表示内部, O 表示其他. 与词向量放入 LSTM/ GRU 层( 实心箭头) 不同的是, 文本特征与 CRF 输出层直接相连( 虚线弯曲箭头). ９． f o re a chb l ock∈b l ocksdo ma t cht henameden t i t i e sa t t r i bu t e s １１． i fma t cht hen １３． endi f １２． s avet henameden t i t i e s １４． endf o r 图２简历解析算法的伪代码 F i ２ Ps eudo c odef o rr e sumepa r s i nga l r i t hm g． go ３．４简历信息抽取系统基于提出的简历信息抽取算法, 我们开发了一款基于 Dj ango 框架的简历信息抽取系统. 该系统运行在我们的数据中心, 用作简历收集和数据分析.目前为止, 我们实现的功能有: 简历信息抽取、标准格式简历下载和简历过滤.我们使用 MySQLCl us t e r s 存储结构化数据, 例如用户的操作记录和简历上传的时间戳等.简历爬虫工具负责从指定的网站收集简历.爬虫工具将收集的简历存储于 HDFS 文件系统, 简历的文件信息以简历 IDs 为索引存储于 MySQL Cl us t e r s. 当用户发起简历解析请求时, 应用服务器将询问的简历 ID 发送图１文本特征与输出层直接相连 F i １ Tex tf e a t ur e sd i r e c t l onne c t edt oCRFl aye r g． yc ３．３简历信息抽取算法通过综合文本块分割与简历具体信息识别, 我们为简历信息提取提出一个整合方案.假设我们从第三方招聘网站获取了一份简历, 首先使用 pd fmi ne r 或 do cx 工具通过去格式化将它转换为纯文本; 然后对简历文本进行数据清洗, 例如统一标点符号、去除停用词和低频词等; 之后把简历文本的每一行放入行列表, 循环地将行列表中的每一行转换为词向量集给 MySQLCl us t e r s.如果 MySQLCl us t e r s 存有该简历之前的解析结果, 应用服务器会向 Mongo 数据库请求之前的解析数据.每份简历的解析结果以键值对的文档格式存储于 Mongo 数据库, 因为每份简历解析得到的特征名称均不相同.如果 MySQLCl us t e r s 没有该简历的解析数据,HDFS 文件系统会返回询问的简历文件, 系统使用简历信息抽取算法解析简历, 并将结果存储于 Mongo 数据库.我们使用 Luc ene 工具为每份简历做全文索引, 方便简历过滤.Do cx 模板和 HTML 模板类似, 经过定义后可用来渲染标准格式简历. 图３展示了该简历信息抽取系统的系统组网. 合.我们标记每一行中的词, 通过查询它在词嵌入中的词汇索引, 将其转换为对应的词向量. 对于行类别分类器和行标签分类器而言, 这两种分类器的输入除了词向量以外不需要构造额外特征.行类别分类器把每一行归为４种大致布局. 行标签分类器进一步完善这一大致分类, 把每一行归为６种一般信息类别.这种级联分类会生成连续的行簇.在每个行簇中, 所有行共享同一标签, 为文本块间提供了边界. 最终, 我们将一份简历按预定义标签分割成了文本块.对于简历具体信息的抽取, 我们迭代地将序列标注分类器应用于文本块的词向量集合和抽取的文本特征.序列标注分类器将检出它们能够识别的命名实体.为了将检出的命名实体与标准维度名称对应, 我们使用 k Ｇme ans 算法计算命名实体间的 TFIDF 余弦相似度做维度聚合. 之后, 簇中的每个命名实体被分配一个标准的维度名称. 此时, 我们把具体的简历信息解析为结构化数据.最后, 我们把识别出的命名实体以键值对形式转换为 XML 文件, 用作前端渲染或数据库存储. 图２给出了该简历解析算法的伪代码. 图３简历解析的系统组网 F i ３ Sys t ema r ch i t e c t ur eo ft her e sumepa r s e r g．４实验方法为了训练所提行分类器, 我们收集了５０００份简历作为数据集.为了获取这些个人数据, 我们开发的爬虫工具从各种第三方招聘平台上获取简历. 简历涵盖不同的行业, 其中４０００份是 PDF 格式简历, 其他１０００份为 Wo r ds 格式简历.

5. ９９祖石诚, 等: 基于新型文本块分割法的简历解析首先使用 pd fmi ne r 和 do cx 工具分别将 PDF 和 DOCX 格式的简历转换为纯文本, 然后对简历文本做数据清洗. 生成的文本简历会去除所有可视化格式或布局. 为了生成以正确格式放入神经网络的数据集, 我们开发献发表的分类中观察到.如图６所示, 在对工作经历分类时, At t en t i onBLSTM 取得的召回率和 F Ｇ１值为０．８０和０．８２, 而 Tex t ＧCNN 取得的召回率和 F Ｇ１值为０．７０和０．７３. 在对项目经历分类时, At t en t i onBLSTM 取得的召回率和 F Ｇ１值为了一款行注释工具, 如图４所示. 这款工具为简历文本中的０．８１和０．８３, 而 Tex t ＧCNN 取得的召回率和 F Ｇ１值为０．７１注释工具将行注释结果保存为文本文件. 每一行包含行类能大致相同.相对于自然段而言, 行的长度偏中等或较短, 不每一行注释两个预定义类别, 一个行类别和一个行标签. 行别、行标签和行内容, 之间以空格隔开.我们将３/４的数据集用作训练集, １/４的数据集用作测试集. 考虑到验证集的设立, 我们在训练集上取１/４数据做交叉验证. 和０．７４.At t en t i onBLSTM 和 Adve r s a r i a lBLSTM 的分类性需要从词序列的过去和未来状态中提取背景信息.２) 对于短句, 例如联系方式, Tex t ＧCNN 的分类表现好于其他文本分类器, 因为这些详细的个人信息是相互独立存在的.Tex t ＧCNN 使用滑动窗口学习词的字符表征, 能使它更好地捕获短语的语义信息. 如图６所示, Tex t ＧCNN 对个人信息分类所取得的召回率和 F Ｇ１值为０．８４和０．８８, 而 At t en t i onBLSTM 取得的召回率和 F Ｇ１值为０．８２和０．８６.３) RCNN 对长句的分类性能好于 Tex t ＧCNN, 因为 RCNN 使用了周期性结构, 相比于固定大小的滑动窗口能捕获更为广泛的背景信息.值得注意的是, RCNN 的周期性结构不依赖于固定大小的滑动窗口.Tr ans f o rme r 的分类性能中等, 我们推测可能是对被权重图４简历行标注工具 F i ４ Re sumel i neanno t a t i ont oo l g．在自然语言学习应用中, 精确度 ( Pr e c i s i on) 和召回率化的注意力位置进行平均化导致了分辨率的降低. 鉴于 At Ｇ t en t i onBLSTM 能对长句和短句展现出良好的分类鲁棒性, 我们决定在生产环境中使用 At t en t i onBLSTM 对文本块进行分割. ( Re c a l l) 是评估分类器性能的常用指标.在命名实体识别中, 精确度定义为所有命名实体被文本分类器正确识别的百分比: Pr e c i s i on ＝ TP /( TP ＋ NP ).召回率即灵敏度, 是指分类器能够取得的命名实体正确分类的百分比: Re ca l l ＝ TP / ( TP ＋ FN ).这两个评价指标分别代表了完整度和正确率. F Ｇ１值是精确度和召回率的调和平均数. ５实验结果５．１简历文本块分类评估考虑到行类别分类, 从整体来看, 简历的４种大致布局能被我们提出的５种文本分类器以较高精确度区分.图５是根图６基于５种文本分类器的行标签分类 F i ６ L i nel abe lc l a s s i f i c a t i onba s edon５t ex tc l a s s i f i e r s g．５．２简历具体信息识别评估表２比较性地评估了４种序列标记分类器对简历具体信据行类别分类对这５种文本分类器做的对比评估.这５种分息的识别性能.在对个人具体信息进行抽取时, 人名有特殊在简历上占据了不同的位置.我们注意到这５种分类器对内较高的 F Ｇ１值.考虑到家庭住址, 我们通常按照习惯把详细这可能是由于一部分求职者使用页眉来展示个人信息, 导致化解释了它偏低的 F Ｇ１值.电话号码和邮箱地址有其独特的类器整体上取得了较高的分类精确率, 因为这４种大致布局的拼写格式, 名和姓的首字母为大写. 这一特征也解释了它容的分类取得的召回率和 F Ｇ１值相对于其他３种类别偏低, 地址写在前面, 把邮政编码写在最后. 长句中蕴含的更多变那些本应该属于简历内容中的行被错误地划分到页眉中. 书写格式; 电话号码包含固定数量的数字, 通常将区号放在括号内; 我们书写邮箱地址时通常先写用户名, 之后是符号 “＠ ”, 最后是域名.这些格式限制解释了这两个字段较高的 F Ｇ１值.学校名称和学位名称在命名实体字典中比较固定, 有较高的 F Ｇ１值.然而, 这两个字段的书写格式存在较多的变化.一些求职者常使用首字母缩写指代他们的母校名称, 而命名实体字典中不包含学校名称的首字母缩写, 导致它们中的一些被分类器漏掉. 同理, 一些求职者常常使用首字母图５基于５种文本分类器的行类别分类 F i ５ L i net l a s s i f i c a t i onba s edon５t ex tc l a s s i f i e r s g． ypec 对于６种一般信息类别的行标签分类, 图６展示了基于５种文本分类器做的比较性分析.我们针对这５种文本分类缩写指代学位名称.相对于学校名称, 专业名称的 F Ｇ１值有所降低, 因为不同学校使用不同名称表示同一专业.在中国, 本科院校经常交替使用生物科学和生物技术来指代生物学科.毕业日期因变化较大, F Ｇ１值有所降低, 如２０１０Ｇ０５Ｇ１９, 器总结了３点结论.１)At t en t i on BLSTM 和 Adve r s a r i a l ０５/１９/２０１０和２０１０/０５/１９等. 对于公司名称, 大多数求职本分类器.这个结论能从分类器对工作经历、项目经历和文种情况下, 单位名称能以较高的相似度在命名实体字典中被 BLSTM 在分类长句时所取得的召回率和 F Ｇ１值高于其他文者以全称列举他们的前雇主, 以便在网上做交叉引用. 在这

6. Compu t e rSc i enc e 计算机科学 Vo l．４７, No．６A, June２０２０１００检出.职位名称很难被识别, 因为它们很大程度上取决于雇主的需求.不同的雇主会使用不同的名称表示同一职位, 这一现象不利于命名实体的识别.职位描述相对于职位名称有较高的 F Ｇ１值, 因为职位描述由连续的长句组成, 这些长句包含了技术细节, 例如符号和数字等. 这些格式特征促进了职位描述的分类.职位描述分类唯一的难点是对职位描述的开头和结尾进行确定.工作周期的 F Ｇ１值较低, 这与毕业日期类似.项目经历和工作经历共享同一种书写格式. 因此, 项目名称、项目描述和项目周期的 F Ｇ１值分别与职位名称、职位描述和工作周期的 F Ｇ１值类似.语言能力和计算机技能与学校名称类似, 因为它们在命名实体字典中是固定不变的, 因此它们的 F Ｇ１值相对较高. 对于文献发表而言, 它有独特的书写格式.学者通常使用哈佛或温哥华格式来书写它们的参考书目.书写习惯常常是作者、发表日期、文章标题、期刊名称、卷号和页码.这一正则表达式也解释了它较高的 F Ｇ１值. 表２简历具体信息字段识别的 F Ｇ１值 Tab l e２ F Ｇ１me a sur e so fr e sumespe c i f i ci n f o rma t i onf i e l d r e c ogn i t i on F i e l d Name Add r e s s Phone Ema i l Un i ve r s i t y Gr adSchoo l Gr adDa t e Ma o r j Deg r e e Company J obTi t l e J obDe s c J obpe r i od Pr o e c tt i t l e j Pr o e c tDe s c j Pr o e c tpe r i od j Language Compu t e rSk i l l Re f e r enc e s Avg． Spe ed B i ＧLSTMＧ CRF B i ＧGRUＧ CRF IDCNNＧ CRF BLSTMＧ CNNs ＧCRF ０．８４４０．８４５０．８４７０．８５００．９３７０．９６７０．９６３０．９０６０．９０４０．８２１０．８５１０．８９８０．８７３０．８４３０．８７２０．８２００．８４２０．８７３０．８１８０．９０８０．９０２０．８４８０．８７８１．１３× ０．９３９０．９６９０．９６５０．９０８０．９０７０．８２３０．８５５０．９０１０．８７５０．８４４０．８７３０．８２１０．８４３０．８７３０．８２００．９１００．９０３０．８５００．８８０１．３０× ０．９４２０．９７１０．９６８０．９１２０．９１００．８２８０．８６２０．９０６０．８８１０．８５００．８８００．８２６０．８４８０．８８１０．８２４０．９１１０．９０６０．８５２０．８８５１．７０× ０．９４５０．９７５０．９７１０．９１６０．９１５０．８３５０．８６６０．９１１较高的 F Ｇ１值, 因为 PROSPECT 是专门针对 IT 行业人员开发的简历推荐系统, 其有限的专业名称和学历名称选择促使了其较高的精确度和召回率. 表３４种简历解析器文本块分类的 F Ｇ１值 Tab l e３ F Ｇ１me a sur e sf o rc l a s s i f i ngt ex tb l o cksby４pa r s e r s y Tex tb l ock PROSPECT Pe r s ona l Educ a t i on Wo rk 结束语 CHM Wr i t i ng ＧS t l e y OurMe t hod ０．７３００．７９２０．８４１－０．８０４０．７８５－０．９２１０．８２３０．７８９０．８６２０．８２０我们系统地研究了在简历信息抽取中应用自然语言处理最前沿的技术, 本项目针对简历信息抽取提出了一种端到端的基于词向量和神经网络文本分类器的管道; 同时提出了一种新的文本块分割法, 该分割法基于简历行的位置信息, 利用了每个文本块内容集成连贯的性质. 我们期望基于背景的迭代行分类能进一步优化独立的行分类.对于简历具体信息的提取, 我们定量地比较了４种序列标记分类器的性能.实验结果显示 BLSTMＧCNNs ＧCRF 能有效地识别命名实体.与３种已经发表的简历解析器的对比评估验证了我们提出的文本块分割法具有良好的分类性能.未来工作包括引入本体论进一步丰富我们现有的简历解析器功能, 通过为每位求职者建立本体侧写, 我们期望能建立一款智能的简历推荐系统. 致谢感谢博士后站工作人员为本项目命名实体字典收集了大量资料; 感谢王修来博士对本项目系统开发的支持与指导. ０．８８８参考文献０．８８２ [ １] ZHOU P, SHI W, TIANJ, e ta l．At t en t i on ＧBa s edB i d i r e c t i ona l ０．８５３０．８３２０．８５１０．８８３０．８３００．９１３０．９１００．８６００．８８９１× 针对解码速度, 我们将 BLSTMＧCNNs ＧCRF 的解码速度设为基线, 然后将各种分类器的解码速度与其做比较, 结果发现 IDCNNＧCRF 的解码速度最快. 当进行序列标记时, LSTＧ Ms 在长度为 N 的句子上的计算复杂度为 O( N ).对于 IDCＧ [ ] NNＧCRF １８而言, 固定长度的迭代扩张卷积生成的标记概率允许分类在文档中并行计算. ５．３对比４种简历解析器本节对比我们提出的文本块分割法和其他３种已经发表的简历解析器在对个人信息、教育背景和工作经历进行分割时的性能.参考文献仅提供了这３种文本块分类的 F Ｇ１值. 这３种发表的简历解析器是 PROSPECT, CHM 和 Wr i t i ng Ｇ S t l e.表３列出了基于这４种简历解析器对３种文本块进行 y 分类的 F Ｇ１值.总体上来看, 我们提出的文本块分割法优于 Wr i t i ng ＧS t l e 和 CHM.我们的文本块分割法基于行的位置 y 信息和文本块内容凝聚一致的特点使得其取得了其优越的分类性能.唯一的例外是, PROSPECT 对教育背景分类取得了 LongSho r t ＧTe rm Memo r two rksf o rRe l a t i onC l a s s i f i c a t i on yNe [ C]∥Pr o c e ed i ngso ft he５４ t h Annua lMe e t i ngo ft heAs s o c i a Ｇ t i onf o rCompu t a t i ona lL i ngu i s t i c s． Be r l i n, Ge rmany, ２０１６． [ ２] MA XZ, HOVY E． End Ｇ t o ＧEndSequenc eLabe l i ngv i aB i Ｇ d i r e c Ｇ t i ona lLSTMＧCNNs ＧCRF [ C]∥Pr o c e ed i ngso ft he５４ t hAnnua l Me e t i ngo ft heAs s o c i a t i onf o rCompu t a t i ona lL i ngu i s t i c s． Be r Ｇ l i n, Ge rmany, ２０１６: ７Ｇ１２． [ ３] YU K, GUAN G, ZHOU M． Re sumeI n f o rma t i on Ex t r a c t i on wi t hCa s c adedHybr i dMode l[ C]∥Pr o c e ed i ngso ft he４３r dAn Ｇ nua lMe e t i ngo ft heAs s o c i a t i onf o rCompu t a t i ona lL i ngu i s t i c s． Un i ve r s i t fMi ch i USA, ２００５: ２５Ｇ３０． yo gan, [ ４] CHENJ, ZHANGCX, NIUZD． ATwo ＧS t epRe sumeI n f o rma Ｇ t i onEx t r a c t i onAl r i t hm [ J]．Ma t hema t i c a lPr ob l emsi nEng i Ｇ go ne e r i ng．２０１８, ２０１８: １Ｇ８． [ ５] PINTO D,MCCALLUM A,WEI X, e ta l． Tab l e Ex t r a c t i on Us i ngCond i t i ona lRandom F i e l d[ C]∥Pr o c e ed i ngso ft he２６ t h Annua lI n t e r na t i ona lACM S IGIR Con f e r enc eon Re s e a r chand Deve l opmen ti nI n f o rma t i onRe t r i eva l．２００３: ２３５Ｇ２４２． [ ６] S INGH A, ROSE C,VI SWESWARIAH K, e ta l． PROSPECT: As t emf o rs c r e en i ngc and i da t e sf o rr e c r u i tmen t[ C]∥Pr o Ｇ ys c e ed i ngso ft he１９ t hACMI n t e r na t i ona lCon f e r enc eonI n f o rma Ｇ t i onandKnowl edgeManagemen t． To r on t o, ON, Canada, ２０１０． [ ７] J IX W, ZENGJP, ZHANG S Y, e ta l．Tagt r e et emp l a t ef o r Webi n f o rma t i onands chemaex t r a c t i on [ J]．Expe r tSys t ems

7. １０１祖石诚, 等: 基于新型文本块分割法的简历解析 wi t hApp l i c a t i ons, ２０１０, ３７( １２): ８４９２Ｇ８４９８． t a t i ons． Pa l a i sd e sCong r è sNe t un e, T ou l on, Fr a n c e, ２０１７: ２４Ｇ２６． p [ ８] SENTHILKUMARAN V, SANKARA． Towa r dsanau t oma t ed [ １５] VASWANIA, SHAZEER N, PARMAR N, e ta l．At t en t i onI s s i ngon t o l ogymapp i ng ( EXPERT)[ J]． I n t e r na t i ona lJ our na lo f r a lI n f o rma t i on Pr o c e s s i ng Sys t ems．Long Be a ch,CA,USA, [ ９] CIRAVEGNAF．( LP) ２, anAdap t i veAl r i t hmf o rI n f o rma t i on go [ １６] HUANGZ H, XU W, YU K． B i d i r e c t i ona lLSTMＧCRF Mode l s CAI Ｇ２００１ Wo rkshoponAdap t i veTex tEx t r a c t i onand Mi n i ng． [ １７]J IAO Z Y, SUN S Q, SUN K． Ch i ne s e Lex i c a l Ana l i s wi t h ys s t emf o ri n t e l l i ts c r e en i ngo fc and i da t e sf o rr e c r u i tmen tu Ｇ ys gen Me t ada t a, Seman t i c sandOn t o l og i e s, ２０１３, ８( １): ５６Ｇ６４． Ex t r a c t i onf r om Web Ｇ r e l a t edTex t s[ C]∥Pr o c e ed i ngso ft heI J Ｇ Se a t t l e,WA, ２００１． [ １０]ZHANG C,WU M, LIC G, e ta l．Re sumePa r s e r: Semi Ｇ s t r uc Ｇ t ur edCh i ne s edo cumen tana l i s[ C]∥Pr o c e ed i ngso ft he２００９ ys WRIWo r l dCong r e s sonCompu t e rSc i enc eandI n f o rma t i onEn Ｇ i ne e r i ng． Lo sAnge l e s, USA, ２００９: １２Ｇ１６． g [ １１] MIKOLOV T, CHEN K, CORRADO G, e ta l． Ef f i c i en tEs t ima Ｇ t i ono fWo r dRep r e s en t a t i onsi nVe c t o rSpa c e[ C]∥Pr o c e ed i ngs o ft he１s tI n t e r na t i ona l Con f e r enc e on Le a r n i ng Rep r e s en t a Ｇ t i ons． Sc o t t s da l e, Ar i z ona, USA, ２０１３． [ １２]KIM Y． Convo l u t i ona lNeur a lNe two rksf o rSen t enc eC l a s s i f i c a Ｇ t i on [C]∥Pr o c e ed i ngso ft he２０１４ Con f e r enc eon Emp i r i c a l Me t hodsi n Na t ur a lLanguagePr o c e s s i ng．Doha,Qa t a r, ２０１４: ２５Ｇ２９． [ １３]LAIS W, XU L H, LIU K, e ta l． Re cur r en tConvo l u t i ona lNeu Ｇ r a lNe two rksf o rTex tC l a s s i f i c a t i on [ C]∥Pr o c e ed i ngso ft he ２９ t hCon f e r enc eo ft heAs s o c i a t i onf o rt heAdvanc e Ｇmen to fAr Ｇ t i f i c i a lI n t e l l i e． Aus t i n, Texa s, USA, ２０１５． genc [ １４] MIYATOT, DAIA M, GOODFELLOWI． Adve r s a r i a lTr a i n i ng Me t hodsf o rSemi ＧSupe r v i s edTex tC l a s s i f i c a t i on [ C]∥Pr o c e ed Ｇ Al lYouNe ed [ C]∥Pr o c e ed i ngso ft he３１s tCon f e r enc eonNeu Ｇ２０１７． f o rSequenc eTagg i ng [ J]． a rXi v: １５０８．０１９９１v１． De epB i ＧGRUＧCRF Ne two rk [ J]． a rXi v: １８０７．０１８８２． [ １８]STRUBELLE, VERGA P, BELANGER D, e ta l． Fa s tand Ac Ｇ cur a t e En t i t c ogn i t i on wi t hI t e r a t ed Di l a t ed Convo l u t i ons y Re [ C]∥Pr o c e ed i ngso ft he２０１７Con f e r enc eonEmp i r i c a lMe t hods i nNa t ur a lLanguagePr o c e s s i ng． Copenhagen, Denma rk, ２０１７: ９Ｇ１１． [ １９]DONG C H, ZHANG JJ, ZONG C Q, e ta l． Cha r a c t e r ＧBa s ed LSTMＧCRF wi t h Rad i c a l ＧLeve l Fe a t ur e sf o r Ch i ne s e Named En t i t c ogn i t i on [ C]∥I n t e r na t i ona lCon f e r enc eonCompu t e r yRe Pr o c e s s i ngo fOr i en t a lLanguage s． Sp r i nge rI n t e r na t i ona lPub Ｇ l i sh i ng, ２０１６: ２３９Ｇ２５０． [ ２０]DEVLINJ, CHANG M W, LEE K, e ta l． BERT: Pr e Ｇ t r a i n i ngo f De ep B i d i r e c t i ona l Tr ans f o rme r sf o r Language Unde r s t and i ng [ J]． a rXi v: １８１０．０４８０５． ZU Sh i Ｇ ch eng ,bo r ni n １９８８, s t r a Ｇ po g dua t e, Ph． D．Hi sma i nr e s e a r chi n t e r e s t s i nc l udema ch i nel e a r n i ng, de epl e a r n i ng andna t u r a ll anguagep r o c e s s i ng． i ngso ft he５ t hI n t e r na t i ona lCon f e r enc eonLe a r n i ngRep r e s enＧ ( 上接第８８页) [ １０] WOLPERT D H,MACREADY W G． NoFr e eLunchTheo r ems f o rSe a r ch[ J]． IEEE Tr ans a c t i ononEvo l u t i ona r t a t i on, yCompu １９９７, １( １): ６７Ｇ８２． [ １１] KENNEDYJ, EBERHART R C． Pa r t i c l eSwa rm Op t imi z a t i on [ C] ∥Pr o c e ed i ngso ft heIEEE I n t e r na t i ona lCon f e r enc eon t a t i on, ２００７, １８８( １): １２９Ｇ１４２． [ １５] WANG LZ, XU X D, LIU H L．Us i ngSVM me t hodop t imi z ed byimp r ovedpa r t i c l eswa rmop t imi z a t i ont oana l z et heemo t i on y o fCh i ne s et ex t[ J]． Compu t e rSc i enc e, ２０２０, ４７( １): ２３１Ｇ２３６． ZHANGSu Ｇme i , bo r ni n１９８２,ma s t e r, Neur a lNe two rks． New Yo rk, １９９５: １９４２Ｇ１９４８． l e c t u r e r． He rma i nr e s e a r chi n t e r e s t si n Ｇ bandANCa l r i t hm wi t hou tt heus eo fs on i z a t i ons i l go ynchr gna ana l s i sands oon． y [ １２]ROUT N K, DASDP, PANDA G． PSOba s edadap t i vena r r owＧ ands e c onda r t he s t ima t e[ J]．Me chan i c a lSys t ems & S i l ypa gna Pr o c e s s i ng, ２０１９, １１４: ３７８Ｇ３９８． [ １３]ZHUJW, FANG HS． Se l f Ｇ adap t i vee e c t o rpa r t i c l eswa rmop t i Ｇ j mi z a t i ona l r i t hm[ J]． Pa t t e r nRe c ogn i t i onandAr t i f i c i a lI n t e l l i Ｇ go c l ude l anguage da t a mi n i ng,c o r pus ZHANGBo Ｇ t a o , bo r ni n１９８２, Ph． D, a s Ｇ s o c i a t ep r o f e s s o r． Hi sma i nr e s e a r chi n Ｇ e, ２０１９, ３２( ２): １０９Ｇ１１６． genc t e r e s t si nc l ude t he o r e t i c a l me t hod o f c l eSwa rmandAn tCo l onyAl r i t hmsHybr i d i z edf o rImp r oved go l e a r n i ng． [ １４]SHELOKARPS, S IARRYP, JAYARAMAN V K, e ta l． Pa r t i Ｇ Con t i nuousOp t imi z a t i on[ J]．App l i ed Ma t hema t i c sandCompu Ｇ c ompu t a t i ona li n t e l l i eand ma ch i ne genc