中文简历自动解析及推荐算法

如果无法正常显示，请先停止浏览器的去广告插件。

1. Computer Engineering and Applications 计算机工程与应用中文简历自动解析及推荐算法谷楠楠，冯筠，孙霞，赵妍，张 141 用应与蕾 2017， 53 （18） GU Nannan, FENG Jun, SUN Xia, ZHAO Yan, ZHANG Lei 程 g r 工 o . j 机 a e 算 c . 计 w w w 西北大学信息科学与技术学院，西安 710127 School of Information Science and Technology, Northwest University, Xi’ an 710127, China GU Nannan, FENG Jun, SUN Xia, et al. Chinese resume information automatic extraction and recommendation algorithm. Computer Engineering and Applications, 2017, 53 （18）： 141-148. Abstract：In order to solve the problem of laborious and time-consuming artificial selection from mass electronic resumes, a solution to resumes automatic extraction and recommendation is proposed. Firstly, the sentences in Chinese resume are represented as vectors through word segmentation, part-of-speech tagging and other preprocessing steps, then SVM classi- fication algorithm is used to classify the sentences into six predefined general classes, such as personal basic information, job intension, working experience and so on. Secondly, according to the lexical and grammatical features of personal basic information block, the rules are constructed by hand to extract the key information like Name, Gender, and Contact information. While the HMM model is used to extract the detailed information in complex information blocks, and puts forward rules and statistics based resume information extraction method. Finally, a Content- Based Reciprocal Recom- mender algorithm（CBRR）is proposed, which takes into account the preferences of both enterprise and job seekers. The experiment results show that the solution proposed in this paper can assist enterprises in recruitment, improve screening efficiency and save recruitment costs. Key words： information extraction; recommendation; collaborative filtering; rule; statistics; resume 摘要：为解决企业人工筛选电子简历效率低等问题，提出一种简历自动解析及推荐方案。对中文简历中的句子进行分词、词性标注等预处理，表示为特征向量，并利用 SVM 分类算法将所有句子划分成预定义的六个通用类别，包括个人基本信息、求职意向和工作经历等。利用个人基本信息的词法和语法特征，手工构建规则来实现姓名、性别及联系方式等关键信息抽取；对复杂的工作经历等文本用 HMM 模型进一步抽取详细信息，从而形成基于规则和统计相结合的简历文本信息抽取方法。考虑企业和求职者双方偏好，提出基于内容的互惠推荐算法（Content-Based Reciprocal Recommender algorithm， CBRR）。实验结果表明，整个方案能有效处理电子简历，提高简历筛选效率，辅助企业进行人才招聘。关键词：信息抽取；推荐；协同过滤；规则；统计；简历文献标志码： A 中图分类号： TP391 doi： 10.3778/j.issn.1002-8331.1612-0406 引言已超过 1.5 亿 [1] 。大型企业招聘人员每天能收到成千上随着互联网不断发展，传统线下招聘模式由于覆盖万份电子简历，存储及筛选这些半结构化的电子简历需率低、效率差、成本高等原因逐渐被互联网招聘方式所要耗费大量人力和时间，因此亟需一种能自动从电子简取代。根据艾瑞咨询发布的 2016 年中国网络招聘行业历中抽取企业关心的信息并将其存储为结构化的数据，发展报告显示， 2015 年中国网络招聘月度平均覆盖人数同时为企业招聘人员推荐合适候选人的简历自动解析 1 基金项目：陕西省教育厅自然科学基金（No.JD11258）；陕西省教育厅科学研究计划自然科学专项项目（No.15JK1738）；陕西省自然科学基础研究计划项目支撑（No.2015JQ6240）；西北大学研究生课程建设项目（No.YJD15003）。作者简介：谷楠楠（1993—），女，硕士研究生，研究方向：文本信息抽取及简历推荐研究；冯筠（1972—），女，教授，博士生导师，研究方向：数据挖掘、图形图像处理、模式识别与人工智能等领域研究；孙霞（1977—），通讯作者，女，副教授，硕士生导师，研究方向：数据挖掘、模式识别与人工智能等领域研究， E-mail： raindy@nwu.edu.cn。收稿日期： 2016-12-26 修回日期： 2017-02-28 文章编号： 1002-8331 （2017） 18-0141-08

2. Computer Engineering and Applications 计算机工程与应用 2017， 53 （18） 142 及推荐方案。用 CBRR），并将提出的算法和目前常见的协同过滤推荐文献[2]用基于内容的算法进行职位推荐，并对闵可夫斯基距离度量算法进行改进。文献[3-4]用基于协算法作对比，实验结果证明互惠推荐算法能够显著提高应推荐效果及招聘成功率，帮助企业节约招聘成本。同过滤的推荐算法来推荐符合要求的简历。文献[5]通与过对已有的职位描述信息手动打标签形成职位描述信程息库，采用关联模型来进行职位描述信息和简历之间的 2 中文简历自动解析及推荐算法总体框架中文简历自动解析及推荐算法主要包括电子简历 g r 工 o . j 机 a e 算 c . 计 w w w 匹配。文献[6-8]用混合的基于协同过滤算法和基于内自动解析及推荐两部分内容，如图 1，不同于传统的在线容的推荐算法来实现简历自动筛选。以上研究都是基招聘系统，本文提出的算法框架不仅能够自动从半结构于求职者在线填写的结构化数据来实现推荐，不能自动化电子简历文本中抽取简单属性信息，还可以自动抽取处理求职者在线提交的电子简历并进行筛选，而且都只考虑了求职者或企业的单方需求，不能同时满足两者偏好。还有一些学者在研究如何从半结构化电子简历中自动抽取一些有用的信息 [9-20] 。文献[9]使用信息抽取工具包（LP） 2 来学习得到英文简历抽取规则，定义了八种简单信息抽取规则，包括姓名、街区、城市、省份、邮箱、电话、传真以及邮政编码。文献[10]提出使用级联的混合简历信息抽取方法，文献[11]利用 CRF 模型来解决英文 PDF 格式简历文本信息抽取任务，他们都忽视了个人基本信息的强规则性，导致抽取结果的准确率和召回率比较低，并且他们的研究都针对英文简历，由于中英文表达方式的差异，他们的方案在中文简历信息抽取研究中不适用。简历文本信息抽取不同于其他传统的信息抽取问题 [12] ，因为电子简历文件格式有多种，比如 txt、 pdf、 doc 等，而且简历排版样式也因人而异。与传统的信息抽取问题相比，简历文本信息抽取更具有挑战性。同时，招聘推荐系统涉及求职者和企业双边利益，只有满足双方偏好才能达到互利共赢的局面，但是现有研究很少同时关注求职者和企业双方需求。本文在总结分析前人研究内容的基础上，提出一种针对中文简历的自动解析及推荐新方案。依据中文简历层次化结构，提出基于规则和统计模型相结合的中文简历信息抽取方法，不仅可以抽取简历中姓名、性别及工作经历等复杂信息，同时能够根据企业及求职者双方偏好提供互惠推荐。首先，进行电子简历自动解析时基于层次化简历结构，对整个简历文本进行分块，并将此简历分块问题看作文本分类问题处理，将整个简历文本以换行符分割为句子，并对所有句子经分词、词性标注等预处理及特征选择，表示特征向量，采用 SVM 算法将所有句子分成预定义的六个通用类别，比如个人基本信息类、教育经历及工作经历等。考虑不同通用类别文本块表述特点，采用分而治之的思想从分类结果中进一步抽取详细信息，对于简单属性，比如姓名、年龄和手机号码等采用基于规则的方法；对于复杂信息，比如工作经历、教育经历等采用基于 HMM 统计模型的方法处理。其次，对半结构化电子简历经过信息抽取后，形成结构化信息，将抽取结果存储在简历库中，和其他简历一起经过筛选推荐给企业招聘人员。最后，在简历推荐中，本文提出了不同于传统的用户-物品单向推荐算法，在考虑求职者和企业双方偏好的基础上提出了基于内容的互惠推荐算法（CBRR）。综合考虑企业和求职者基本信息及偏好，利用企业招聘职位和求职者应聘简历之间的历史交互数据，采用改进的相似度度量算法计算求职者满足企业偏好程度及企业满足求职者偏好程度，并计算互惠得分，根据互惠得分排名为企业推荐合适求职者。联系方式等简单信息，而且能够从工作经历这类复杂信息中抽取企业关注的内容。除此之外，本文同时考虑求职者和企业的偏好，提出基于内容的互惠推荐算法（Content- Based Reciprocal Recommender algorithm，简历信息抽取简单信息 3 基于规则和统计模型相结合的简历文本信息抽取方法中文简历内容通常包含个人基本信息、教育和专业结构化简历信息库基于规则的方法简历分块电子简历复杂信息基于统计的方法在线招聘信息图 1 中文简历自动解析及推荐算法框架候选人列表基于内容的简历互惠推荐

3. 谷楠楠，冯筠，孙霞，等：中文简历自动解析及推荐算法 2017， 53 （18） 143 用背景、工作经历及求职意向等信息。本文将中文简历看配技术进行简历文本分块。关键字匹配算法是以简历作是层次化的结构。第一层由通用类别构成，比如个人内容为导向，将个人基本信息、求职意向、自我评价、教基本信息、教育信息、求职意向信息等类别。在每个通育经历、工作经历这些通用类别信息关键词及与其意义用类别下，包含对应的详细信息，例如在个人基本信息相近或相关的词语收集起来，将这些关键词作为分块标类别下包含姓名、住址、邮箱等详细信息。通用类别和记，进行分块。例如对于教育背景相关关键字正则表达详细信息模板定义如表 1。应与程式内容为“教\s*育\s*背\s*景|教\s*育\s*经\s*历|学\s*习 g r 工 o . j 机 a e 算 c . 计 w w w 表 1 通用类别和详细信息定义通用类别详细信息个人基本信息 (B 1 ) 姓名、性别、生日、住址、手机号码、邮箱求职意向 (B 2 ) 工作性质、期望工作地点、期望职位、期望薪资自我评价 (B 3 ) 专业技能、性格特点教育经历 (B 4 ) 时间、学校、专业、学历工作经历 (B 5 ) 其他 (B 6 ) 工作时间 (W 1 ) 、公司名称 (W 2 ) 、职位名称 (W 3 ) 、工作内容 (W 4 ) 其他详细信息根据简历层次化结构，文本首先将整个简历文本分 \s*经\s*历|求\s*学\s*经\s*历|学\s*习\s*经\s*历|教\s*育 \s*概\s*况|教\s*育|学历教育”，工作经历相关关键字正则表达式内容为“工\s*作\s*经\s*验|工\s*作\s*经\s*历| 工\s*作|工\s*作\s*历\s*史|工\s*作\s*背\s*景|工\s*作\s* 简\s*介|工\s*作\s*能\s*力”。算法具体步骤为：步骤 1 将所有电子简历转为纯文本形式。步骤 2 将每份简历和预先设置的通用类别关键字正则表达式进行匹配，若匹配成功，则认为此处是该类别信息开始位置，将位置信息记录下来。步骤 3 获取所有类别关键字位置，并按照记录的位置进行文本块划分。成六个通用类别文本块，将简历分块问题看作文本分类关键字匹配算法的分块效果极大程度上取决于关问题处理，将所有句子表示为特征向量后，用文本分类键词库是否全面，本文通过观察总结大量简历，人工确算法进行分类。然后从分类结果中进一步抽取详细信定关键词库。本文将待处理的简历分为两类：标准格式息，提出基于规则和统计模型相结合的简历信息抽取方的简历和样式丰富的非标准格式简历。标准格式简历法，针对规则性较强的文本块，比如个人基本信息块，采如图 2 所示，简历中每个通用类别信息块及每项详细信用基于规则的方法；对复杂信息，比如工作经历信息，采息都有明显的关键字，每个模块划分明确，按照自上而用 HMM 统计模型抽取详细信息，比如工作时间、职位下的形式书写，没有花哨的布局样式，对于这种简历采及工作内容等。用关键字匹配算法处理准确率较高。但是目前大多数 3.1 中文简历分块简历分块的结果会被应用到下一步的详细信息抽取中，因此需要寻找有效的分块方案。本文对比了利用关键字匹配的文本分块方法和基于文本分类算法的简历分块方法。关键字匹配方法通过采用正则表达式匹配的方法将简历文本和预先设定的通用类别关键词词典进行匹配划分不同文本块，通用类别关键词词典中主求职者为了追求简历的美观，会添加一些花哨的样式，采用表格布局或采用如图 3 所示的左右分栏样式，这种带样式信息的简历转为纯文本后导致左右两侧内容产生交叉，而且有的部分不包含预先设定的关键词信息，导致采用关键字匹配的方法失效。因此本文采用基于支持向量机的文本分类算法来解决简历文本分块问题，实现对样式各异简历的分块处理。要包含“工作经历”、 “工作经验”、 “教育经历”及“个人基本信息”等关键词；而基于文本分类算法的简历分块方法将简历分块问题看作分类问题来处理，将每份简历按照换行符分割成一个个句子，然后将每个句子表示成特征向量，将简历文本分块看作是给分割之后的每个句子划分类别的问题。支持向量机（Support Vector Machine， SVM）是 Corinna Cortes 和 Vapnik 等于 1995 年首先提出的，在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中，通常用来进行模式识别、分类以及回归分析。SVM 模型处理过拟合问题具有很好的鲁棒性而且算法处理性能高，因此本文使用 SVM 作为分类模型。 3.1.1 基于关键字匹配的简历文本分块通过分析简历文本特点，发现大部分简历文本块内容固定，并且具有类别关键字，因此本文采用关键字匹图 2 标准格式简历示例

4. 2017， 53 （18） 144 Computer Engineering and Applications 计算机工程与应用用来解决多类分类问题，目前主要通过组合多个二分类器来实现多分类器的构造，常见的有一对多和一对一方应法。一对多的方法通常首先将某个类别的数据归为一类，其余所有类别的数据归为另外一类，于是 N 个类别与的数据就产生了 N 个 SVM 分类器，分类时将未知样本程归为具有最大分类函数值的类别。一对一方法在任意 g r 工 o . j 机 a e 算 c . 计 w w w 两个类别之间设计一个 SVM 分类器，因此 N 个类别的数据就需要设计 N(N - 1)/2 个 SVM 分类器。本文使用一对一的策略来构造多类分类器。 3.2 基于规则和统计模型相结合的简历详细信息抽取 t 未出现的次数， D 表示词语 c 和 t 都未出现的次数， N 3.2.1 基于规则的简历信息抽取方法在个人基本信息和工作意向详细信息抽取中，根据中文简历的词法和语法特征，通过手动构建抽取规则来实现关键信息抽取。例如，个人基本信息块中的姓名项可以通过利用简历文本中姓名命名实体标注和中文姓氏表来制定规则进行抽取。 W 代表中文关键字， P 代表词语对应的词性标签， T 代表需要被抽取的详细信息，角标 [-2, -1,0,1] 分别代表当前词前面的第二个词、当前词前面的第一个词、当前词、当前词的后一个词。本文以抽取姓名和邮箱为例，规则展示如下：（1）姓名如果文本块中包含关键字“ 姓名 ”或“ 名字 ”，用 re_name 代表“姓名”或“名字”关键字， wp 代表词性为表示文档总数。标点符号， n 代表名词词性，抽取规则为：图 3 样式丰富的非标准格式简历示例 3.1.2 基于支持向量机的简历文本分块本文将简历文本经过分词、词性标注、去停用词等预处理步骤之后的所有词汇作为原始特征，原始特征维数高，因此本文采用卡方统计模型进行特征降维，其定义如下： 2 N × ( AD - CB ) χ ( t,c ) = （1） ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) 2 其中， t 指简历中的词语， c 指简历中特定的通用信息类别， A 表示词语 t 和 c 同时出现的次数， B 表示词语 t 出现而词语 c 未出现的次数， C 表示词语 c 出现而词语 W -2 ( re_name ) + P -1 ( wp ) + P 0 ( n ) → T 0 （5）语在简历中出现的频率， IDF 表示逆文档频率，其定义 W -1 ( re_name ) + P 0 ( n ) → T 0 （6）如下：如果文本块中不包含关键字“姓名”或“名字”，用本文使用 TF-IDF 作为特征权重计算方法， TF 指词 æ N ö IDF w i = lb ç （2） ÷ è DF w i ø 其中 N 代表训练文档总数， DF w i 代表包含词语 w i 的文档总数。简历由一串句子序列 S = s 1 ,s 2 ,⋯,s n 构成，对应的类标签为 L = l 1 ,l 2 ⋯,l n ， l i ∈ B j ， 1 ≤ j ≤ 6 ， B j 指表 1 中 B 1 ~B 6 通用信息类型第 j 项，则序列标签概率最大化。 L = arg max P(L|S) L （3）用分类算法来解决文本分块问题首先假设不同块间的类标签是相互独立的，依据这一假设，上述公式可以被描述为： L = arg max n ∏ P ( l i |s i ) L = l 1 ,l 2 ,⋯,l n i = 1 （4）因此可以通过最大化公式中每一项来使该公式值最大。 P ( l i |s i ) 可以被看作将 s i 标记为 l i 类的 SVM 概率。 SVM 算法最初是为二分类问题设计的模型，但是在简历分块问题中，类标签共有六个，需要用 SVM 算法 surname_keyword 代表当前词汇可以在中文姓氏表匹配成功， name_keyword 代表当前词在中文常用名表中匹配成功，抽取规则为： W -1 ( surname_keyword ) + W 0 ( name_keyword ) → T -1 + T 0 （7）（2）邮箱如果文本块中包含关键字“E- mail” “email” / “ / 邮箱” “电子邮箱” / ，用 re_mail 代表上述关键字， wp 代表词性为标点符号， email 代表分词之后的命名实体标注为邮箱，则规则为： W -2 ( re_mail ) + P -1 ( wp ) + P 0 ( email ) → T 0 （8） W -1 ( re_mail ) + P 0 ( email ) → T 0 （9） 3.2.2 基于 HMM 算法抽取详细信息一般将信息抽取任务看作统计机器学习中的序列标注问题来处理。HMM 是常见的解决序列标注问题的机器学习算法，在序列标注问题中，假定状态值不仅取决于其对应的观察值，更取决于序列中其他观察值。本

5. 谷楠楠，冯筠，孙霞，等：中文简历自动解析及推荐算法章以抽取工作经历信息为例，展示提出的方法。 2017， 53 （18） 145 用影、音乐、书籍等），只需要满足被服务对象的单方需求首先，使用中科院提供的中文分词工具 NLPIR 将工即可。但是在线简历推荐系统不同于传统推荐，当为企作经验文本块中文本进行分词处理，分词之后的结果是业推荐求职者简历时，企业作为被服务用户，求职者作带有命名实体标注/词性标注的词汇，将分词之后的结为被推荐者，两个之间存在相互偏好，因此为了提高推果看作观察值。在词序列中使用 BIO 标签标注每个详荐准确率以及成功率，简历推荐系统应该同时考虑求职细信息的边界。如表 1，对每种详细工作经验信息 W i ，者和企业的偏好。应与程 g r 工 o . j 机 a e 算 c . 计 w w w 用 W i - B 代表 W i 的起始边界， W i - I 代表 W i 的中间为了达到求职者和企业招聘人员互利共赢的局面，部分，除此之外，标签 O 代表该词汇不属于任何详细信本文依据求职者简历投递情况及企业历史录用的简历息类型，将此类位置信息标签看作是隐状态。标注规则情况，提出了基于内容的互惠推荐算法（CBRR），算法如表 2。能同时考虑双方偏好，提高企业招聘效率及成功率。表 2 4.1 工作经历信息标注规则特征选择及预处理本文选择能够反映求职者和招聘人员基本信息及抽取的内容开始中间部分工作时间 TIMEB TIMEI 偏好的属性，最终选择的属性有 7 个，分别是月薪、工作公司名称 COMB COMI 地点、工作性质、职位、学历、专业、工作时间，求职者简职位名称 PROFB PROFI 工作内容历和企业招聘信息这些属性之间存在对应关系，如图 4。 CONB CONI compat(Q v ,P u ) 通过手工标注数据集，采用最大似然估计（the Maximum Likelihood， ML）算法来训练 HMM 模型。训练中共涉及三个参数：初始概率 π ，转移概率矩阵 A 以及发射概率矩阵 B 。初始概率为： I π i = N i ,1 ≤ i ≤ N ∑ I j 企业招聘职位基本信息 Q v （10） I i 指以某一特定状态为起始状态的初始概率， N 代表模型中状态数目。转移概率矩阵 A 中的元素 a ij 定义为： a ij = N ∑ C i,k , 1 ≤ i,j ≤ N 企业招聘职位偏好信息 P v （11）图 4 k= 1 M ∑ E j ( V i ) ,1 ≤ j ≤ N,1 ≤ k ≤ M （12）职位名称期望职位学历要求最高学历专业要求专业工作经验（时间）工作经验（时间）求职者基本信息 Q u 求职者简历和企业招聘职位属性对应关系才网等大型招聘网站常见的月薪区间划分策略，对其进行离散化处理。针对类别属性，比如学历，每个类别作项值为 0，用二值属性表示每个特征，形成特征向量。每个观察值的发射概率是文本块中所有发射概率的总和，即： 4.2 推荐算法描述设 i = { 1,2,3,4 } 表示薪资、工作地点、工作性质、职（13） k= 1 位名称这四个属性； j = { 1,2,3 } 表示学历、专业、工作时间这三个属性。用 U 表示求职者， V 表示企业职位。 K 代表观察值的数目。采用维特比算法（Viterbi algorithm）来寻找和观察值序列相匹配的最大概率状态序列。 4 期望工作性质求职者偏好信息 P u 为一个特征。如果某一特征符合该项值就为 1，否则该 E j (V k ) 代表由状态 S j 发射出 V k 的次数。 b j ( O t ) = ∑ b j ( O tk ) 工作性质标量属性，比如月薪和工作经验，根据智联招聘、中华英 i= 1 K 期望工作地点个属性采用不同的数据预处理策略。对于区间属性和发射概率矩阵元素 b j ( V k ) 定义为： b j ( V k ) = 工作地点这些属性包含区间类型、标量类型、类别类型，对每 C i,j 代表从状态 S i 到状态 S j 的转移数目。 E j ( V k ) 期望薪资 compat(Q u ,P v ) j= 1 C i,j 职位薪资 P ui 表示求职者 u 对属性 i 的偏好， Q uj 表示求职者 u 个人基本信息中属性 j 的值， Q vi 表示企业招聘职位 v 的属性 i 的值， P vj 表示企业招聘职位 v 对属性 j 的偏好。得到四个特征向量之后，来计算求职者基本信息满基于内容的简历互惠推荐算法研究目前常见的推荐算法有基于内容推荐、基于用户/ 足企业偏好的程度，表示为 compat ( Q u ,P v ) ，以及企业，传基本信息满足求职者偏好的程度 compat ( Q v ,P u ) ，然后统的用户-物品推荐，推荐对象是被动的物品（比如电计算他们的调和平均数，得到简历和职位信息之间的互基于物品的协同过滤推荐以及混合的推荐算法 [21-22]

6. Computer Engineering and Applications 计算机工程与应用 2017， 53 （18） 146 用惠得分值，按照互惠得分排序，推荐 top N 给企业。 N Algorithm CBRR 其中， w i = 应 Input： i, j,U,V Output： recip(u,v) 与 Begin ∑ a ik k= 1 4 N （17） ∑ ∑ a ik i= 1 k= 1 N 表示求职者 u 历史投递的职位总数。 a ik 表示在 /*初始化 compat(Q u ,P v ),compat(Q v ,P u ),recip(u,v) */ 求职者 u 已投递的所有职位中，第 k 个职位是否满足求 /*计算简历满足招聘职位偏好的程度*/ 职者偏好中的第 i 个属性，如果第 k 份简历满足职位招程 g r 工 o . j 机 a e 算 c . 计 w w w foreach j,u ∈ U,v ∈ V M w j ← ∑ a jk k= 1 3 M ∑ ∑ a jk j= 1 k= 1 聘要求中的第 i 个属性，则 a ik 等于 1，否则等于 0。（3）考虑既满足求职者偏好又满足企业偏好，考虑互惠性，用调和平均数来表示两者联系。 2 recip ( u,v ) = compat(Q u ,P v ) ← 3 ∑ (w j × Q uj × P vj ) j= 1 3 3 j= 1 j= 1 end for N k= 1 4 N ∑ ∑ a ik i= 1 k= 1 compat(Q v ,P u ) ← 为了验证本文提出的算法在处理样式各异的电子 4 ∑ (w i × Q vi × P ui ) i= 1 4 4 简历时的有效性，本文从当前流行的在线招聘网站（中 i= 1 i= 1 华英才网、智联招聘等）下载不同样式的中文电子简历 ( ∑ Q vi 2 ) × ( ∑ P ui 2 ) 共 1 000 份，设计多组实验来验证本文提出的简历文本 end for 2 recip(u,v) ← (compat(Q u ,P v )) -1 + (compat(Q v ,P u )) -1 信息抽取算法。每一份简历都被手动打上标签，在标注之前有明确的标注说明文档。每组实验都按照 7 ∶3 的 return recip(u,v) 比例分配训练数据集和测试数据集，并进行 6 折交叉 end 验证。（1）计算求职者基本信息满足企业偏好的程度：实验中选择 LIBSVM 作为 SVM 分类器工具包，中 3 compat ( Q u ,P v ) = ∑ ( w j × Q uj × P vj ) 科院分词工具 NLPIR 作为分词和命名实体识别工具。 j= 1 （14） æ 3 2 ö æ 3 2 ö çç ∑ Q uj ÷÷ × çç ∑ P vj ÷÷ è j= 1 ø è j= 1 ø 认为抽取结果和标注结果达到 90%以上匹配才相等。 ∑ a jk 本文采用准确率（P）、召回率（R）和 F 值作为评价准则， k= 1 3 M （15） ∑ ∑ a jk 分块策略的有效性，设计了一组对比实验。实验都采用 M 表示招聘职位 v 历史录取的简历总数。 a jk 表基于规则和 HMM 模型相结合的方法，但是第一个实验示在职位 v 已录取的所有简历中，第 k 份简历是否满足职位信息中的第 j 个属性，如果第 k 份简历满足职位招没有进行分块处理，而是直接从整个简历中抽取有用信息；第二个实验将简历分块问题转化为文本分类问题，聘要求中的第 j 个属性，则 a jk 等于 1，否则等于 0。用 SVM 算法将简历中所有句子划分为六个预定义通用（2）企业基本信息满足求职者偏好的程度为：类别，然后再从特定的类别中进一步抽取对应的详细信 4 ∑ ( w i × Q vi × P ui ) 息，而不是从整个简历文本中。实验结果展示如表 3，可 i= 1 （16） æ 4 2 ö æ 4 2 ö ç ∑ Q vi ÷ × ç ∑ P ui ÷ è i= 1 ø è i= 1 ø 以看出采用文本分块的策略代替直接从整个简历进行抽取将个人基本信息的 F 值提高了 5.53%，将抽取工作经历的 F 值提高了 11.07%。表 3 抽取单元设计多组实验来验证提出的简历信息抽取方法。（1）为了验证在中文简历信息抽取过程中进行文本 j= 1 k= 1 compat ( Q v ,P u ) = 在文本分块实验中，若分块结果与手工标注结果匹配率达到 90%以上认为相等，同样在详细信息抽取结果中， M 其中， w j = （ 18 ） -1 + ( compat ( Q v ,P u ) ) 5 实验结果评估 5.1 基于规则和统计模型相结合的简历文本信息抽取实验 foreach i,u ∈ U,v ∈ V w i ← ∑ a ik -1 ( compat ( Q u ,P v ) ) ( ∑ Q uj 2 ) × ( ∑ P vj 2 ) 文本分块的有效性个人基本信息（基于规则）工作经验信息（基于 HMM 模型）平均准确率/% 平均召回率/% 平均 F 值/% 平均准确率/% 平均召回率/% 平均 F 值/% 整个简历 88.56 87.83 88.19 67.25 72.54 69.79 特定文本块 94.23 93.22 93.72 81.12 80.61 80.86

7. 谷楠楠，冯筠，孙霞，等：中文简历自动解析及推荐算法表 4 2017， 53 （18）用基于关键字匹配和 SVM 分类算法文本分块实验结果标准格式简历数据分块方法 147 应模板各异的混合简历数据平均准确率/% 平均召回率/% 平均 F 值/% 平均准确率/% 平均召回率/% 平均 F 值/% SVM 算法 84.58 86.34 85.45 82.22 84.98 83.58 关键字匹配方法 90.23 92.68 70.89 74.85 72.82 与程（2）为了证实基于文本分类的算法处理简历文本分 91.44 基于 HMM 算法的详细工作经验抽取结果如表 7， g r 工 o . j 机 a e 算 c . 计 w w w 块问题比关键字匹配方法更有效，本文建立了简历文本整体结果较好，这是因为在简历中，通常公司名、工作时通用类别关键词表，采用基于关键字匹配的算法和基于间、职位类别、职位名称和工作内容基本依次序出现，且 SVM 文本分类算法分别在标准数据集和混合数据集有较明显的特征词，比如公司名称通常由一个语义块构（包含标准格式和非标准格式简历）中进行实验，实验结成，并且具有“公司”、 “集团”等特征词；工作时间具有数果如表 4。字和“年”、 “月”等特征词。实验结果显示，在处理标准格式简历时，关键字匹表 7 配算法效果明显优于基于文本分类的算法，但是当加入样式丰富的不同模板的简历数据时，基于 SVM 文本分基于 HMM 模型的详细工作经历信息抽取结果详细工作经历信息准确率/% 召回率/% F 值/% 工作时间 86.26 82.47 84.32 公司名称 88.93 84.56 86.69 职位名称 83.52 80.84 82.16 工作内容 65.78 74.55 69.89 类算法效果明显好于基于关键字匹配的方法，将 F 值提升了约 11%，因为关键字匹配算法只能处理那些有明显类别关键字、格式标准、模块划分清晰的简历数据，有一定局限性，而文本分类的方法能够兼容样式各异的简历。（3）本文抽取详细个人基本信息时，采用手工构建 5.2 基于内容的简历互惠推荐算法实验正则表达式的方法实现；而针对详细工作经验信息，本为了验证本文提出推荐算法的有效性，需要进行实文采用基于 HMM 模型的算法。通过分而治之混合的验验证，但由于目前简历推荐领域还没有统一和权威的方法和单独地基于规则或基于统计模型的实验结果分数据库，因此从某大型招聘网站选取计算机行业相关职别进行对比，证实提出的基于规则和基于统计模型相结位招聘信息共计 78 份，包括软件开发、数据库管理员、合的方法的可行性。实验结果如表 5 所示。前端开发工程师及软件测试工程师等常见职位，申请这表 5 些职位的简历共 267 份，以这些求职者简历数据、招聘详细信息抽取方法对比职位信息数据以及这些职位和简历之间的交互行为作方法平均准确率/% 平均召回率/% 平均 F 值/% 仅基于规则 78.24 68.88 73.26 仅基于统计模型 71.98 82.34 76.81 离线实验结果通过计算准确率、召回率及 F1 值来 86.98 88.17 87.57 衡量。其中， R ( v ) 表示根据推荐算法为招聘职位 v 推基于规则+ 基于统计模型和其他方法相比，该方法得到了更好的 F 值，证明了基于统计模型和 HMM 相结合的方法针对中文简历抽取任务更加有效。荐的求职者列表， T ( v ) 表示招聘职位 v 录取的求职者列表。 ∑ v ∈ V R(v) ⋂ T(v) ∑ v ∈ V T(v) ∑ v ∈ V R(v) ⋂ T(v) Recall = ∑ v ∈ V R(v) Precision = （4）基于规则的详细个人基本信息抽取结果如表 6，平均 F 值超过 93%，几乎能够达到人工抽取的水准，这主要是因为个人基本信息的表述模式基本固定，而且具有强规则性。其中“姓名”属性的抽取结果召回率较低，主要是因为有的人名比较独特，常用人名词典中未包含，比如“陈二牛”、 “ 李叶”、 “ 张末”、 “ 孙笋”等不常用的人名就没有抽取到。表 6 为实验数据集。基于规则的详细个人基本信息抽取结果（19）（20）根据准确率和召回率计算 F1 值，计算公式为： F1 = 2 × Precision × Recall （21） Precision + Recall 图 5 展示了实验结果，通过和传统的协同过滤算法实验结果进行对比，证实了本文提出的基于内容的互惠详细个人基本信息准确率/% 召回率/% F 值/% 推荐算法在 top-N 推荐中均优于基于协同过滤的推荐算姓名 90.56 85.50 87.96 性别法，当为企业招聘职位推荐的职位数目越来越多时，推 97.82 96.74 97.28 生日 92.14 93.65 92.89 荐效果也越来越好，当推荐简历数目达到 24 份时，文本住址 94.34 89.13 91.66 提出的算法 F1 值达到 29.38%，而基于协同过滤的推荐手机号码 94.02 96.82 95.40 算法 F1 值仅为 21.6%， F1 值提高了 7.78%，不仅如此，互邮箱 96.48 97.46 96.97 惠推荐还能同时考虑求职者和企业的偏好，达到双赢。

8. Computer Engineering and Applications 计算机工程与应用 2017， 53 （18） 148 0.35 0.30 [4] Laumer S， Eckhardt A.Help to find the needle in a hay- 应 stack： Integrating recommender systems in an IT supported F1 值 0.25 与 0.20 0.15 程 staff recruitment system[C]//ACM Sigmis Cpr Confer- ence on Computer Personnel Research， Limerick， Ireland， 2009： 7-12. g r 工 o . j 机 a e 算 c . 计 w w w 0.10 0.05 0 图 5 用 IEEE， 2015： 533-538. 基于内容的互惠推荐算法协同过滤算法 8 12 16 20 topN 24 28 基于内容的互惠推荐结果和协同过滤推荐结果对比 [5] Yi X， Allan J， Croft W B.Matching resumes and jobs based on relevance models[C]//SIGIR 2007： Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval， Amsterdam， the Netherlands， July 2007： 809-810. [6] Färber F， Weitzel T， Keim T.An automated recommenda- 6 结论本文提出了一种能够帮助企业招聘人员自动解析及推荐简历的整体方案，不同于传统的在线招聘系统， tion approach to selection in personnel recruitment[C]// Americas Conference on Information Systems， AMCIS 2003， Tampa， Fl， USA， August 2003. 本文提出的算法框架不仅能够自动从半结构化电子简 [7] Keim T.Extending the applicability of recommender sys- 历文本中抽取简历中简单信息，还可以自动抽取工作经 tems： A multilayer framework for matching human re- 历等复杂信息，同时能够根据企业及求职者双方偏好提 sources[C]//40th Annual Hawaii International Conference 供互惠推荐。考虑到中文简历的层次化结构，首先，对整个简历进行文本分块处理，并将此简历分块问题看作分类来处理，采用 SVM 算法将整个简历中句子自动划分为六个 on System Sciences， 2007， HICSS 2007.IEEE， 2007. [8] Wang Q M， Liu X， Zhu R， et al.A new personalized rec- ommendation algorithm of combining content- based and collaborative filters[J].Computer & Modernization， 2013， 1 （8）： 64-67. 通用类别，在进一步的详细信息抽取中，针对不同的通 [9] Ciravegna F， Lavelli A.Learningpinocchio： Adaptive infor- 用类别文本，分别采用基于规则和基于统计模型的方法 mation extraction for real world applications[J].Natural 完成；然后，考虑到企业和求职者双方偏好，采用基于内 Language Engineering， 2004， 10 （2）： 145-165. 容的互惠推荐算法进行简历推荐。实验结果显示，和基于关键字匹配的方法相比，文本分类算法能更好地解决简历分块问题，因为它能更好 [10] Yu K， Guan G， Zhou M.Resume information extraction with cascaded hybrid model[C]//Proceedings of Associa- tion for Computational Linguistics， 2005： 499-506. 地处理一些不包含关键字的中文简历。另外，采用基于 [11] Chen J， Gao L， Tang Z.Information extraction from 规则的方法抽取个人基本信息取得了很高的准确率和 resume documents in PDF format[J].Electronic Imag- 召回率，因为简历文本个人基本信息本身规则性很强。 HMM 算法对处理教育信息和工作经历信息也很有效。和传统的基于协同过滤的推荐算法对比，本文提出的基于内容的互惠推荐算法推荐结果更佳，而且由于同时考虑了企业和求职者的偏好，也能更好地促进企业有针对性发布面试邀请，提高招聘成功概率。 ing， 2016. [12] 李保利，陈玉忠，俞士汶 . 信息抽取研究综述[J]. 计算机工程与应用， 2003， 39 （10）： 1-5. [13] Lin Hailun， Wang Yuanzhuo， Zhang Peng， et al.A rule based open information extraction method using cas- caded finite- state transducer[C]//Pacific_asia Conference on Knowledge Discovery & Data Mining， 2016， 17 （3）： 325-337. 参考文献： [1] 艾瑞咨询 .2016 年中国网络招聘行业发展报告[R]. 中国：艾瑞咨询， 2016： 14-15. [2] Almalis N， Tsihrintzis G， Karagiannis N.A new content- based recommendation algorithm for job recruiting[M]// Research and Development in Intelligent Systems XXXII. [S.l.]： Springer International Publishing， 2015： 151-162. [3] Zhang Y， Yang C， Niu Z.A research of job recommenda- tion system based on collaborative filtering[C]//Interna- tional Symposium on Computational Intelligence & Design. [14] Kluegl P， Toepfer M， Beck P D， et al.UIMA ruta： Rapid development of rule-based information extraction appli- cations[J].Natural Language Engineering， 2016， 22 （1）： 1-40. [15] Maarouf I E， Villaneau J.Parenthetical classification for information extraction[C]//Coling 2012： Posters， 2012： 297-308. [16] Zhou Fankun.Research of domain- oriented extraction method of text information[D].Nanjing： Nanjing Univer- sity of Posts and Telecommunications， 2014. （下转 270 页）