中文简历自动解析及推荐算法

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. Computer Engineering and Applications 计算机工程与应用 中文简历自动解析及推荐算法 谷楠楠, 冯 筠, 孙 霞, 赵 妍, 张 141 用 应 与 蕾 2017, 53 (18) GU Nannan, FENG Jun, SUN Xia, ZHAO Yan, ZHANG Lei 程 g r 工 o . j 机 a e 算 c . 计 w w w 西北大学 信息科学与技术学院,西安 710127 School of Information Science and Technology, Northwest University, Xi’ an 710127, China GU Nannan, FENG Jun, SUN Xia, et al. Chinese resume information automatic extraction and recommendation algorithm. Computer Engineering and Applications, 2017, 53 (18): 141-148. Abstract:In order to solve the problem of laborious and time-consuming artificial selection from mass electronic resumes, a solution to resumes automatic extraction and recommendation is proposed. Firstly, the sentences in Chinese resume are represented as vectors through word segmentation, part-of-speech tagging and other preprocessing steps, then SVM classi- fication algorithm is used to classify the sentences into six predefined general classes, such as personal basic information, job intension, working experience and so on. Secondly, according to the lexical and grammatical features of personal basic information block, the rules are constructed by hand to extract the key information like Name, Gender, and Contact information. While the HMM model is used to extract the detailed information in complex information blocks, and puts forward rules and statistics based resume information extraction method. Finally, a Content- Based Reciprocal Recom- mender algorithm(CBRR)is proposed, which takes into account the preferences of both enterprise and job seekers. The experiment results show that the solution proposed in this paper can assist enterprises in recruitment, improve screening efficiency and save recruitment costs. Key words: information extraction; recommendation; collaborative filtering; rule; statistics; resume 摘 要: 为解决企业人工筛选电子简历效率低等问题, 提出一种简历自动解析及推荐方案。对中文简历中的句子进 行分词、 词性标注等预处理, 表示为特征向量, 并利用 SVM 分类算法将所有句子划分成预定义的六个通用类别, 包 括个人基本信息、 求职意向和工作经历等。利用个人基本信息的词法和语法特征, 手工构建规则来实现姓名、 性别 及联系方式等关键信息抽取 ; 对复杂的工作经历等文本用 HMM 模型进一步抽取详细信息, 从而形成基于规则和统 计相结合的简历文本信息抽取方法。考虑企业和求职者双方偏好 , 提出基于内容的互惠推荐算法(Content-Based Reciprocal Recommender algorithm, CBRR)。实验结果表明, 整个方案能有效处理电子简历, 提高简历筛选效率, 辅 助企业进行人才招聘。 关键词: 信息抽取 ; 推荐 ; 协同过滤 ; 规则 ; 统计 ; 简历 文献标志码: A 中图分类号: TP391 doi: 10.3778/j.issn.1002-8331.1612-0406 引言 已超过 1.5 亿 [1] 。大型企业招聘人员每天能收到成千上 随着互联网不断发展,传统线下招聘模式由于覆盖 万份电子简历,存储及筛选这些半结构化的电子简历需 率低、效率差、成本高等原因逐渐被互联网招聘方式所 要耗费大量人力和时间,因此亟需一种能自动从电子简 取代。根据艾瑞咨询发布的 2016 年中国网络招聘行业 历中抽取企业关心的信息并将其存储为结构化的数据, 发展报告显示, 2015 年中国网络招聘月度平均覆盖人数 同时为企业招聘人员推荐合适候选人的简历自动解析 1 基金项目: 陕西省教育厅自然科学基金(No.JD11258);陕西省教育厅科学研究计划自然科学专项项目(No.15JK1738);陕西省自 然科学基础研究计划项目支撑(No.2015JQ6240);西北大学研究生课程建设项目(No.YJD15003)。 作者简介: 谷楠楠(1993—),女,硕士研究生,研究方向:文本信息抽取及简历推荐研究;冯筠(1972—),女,教授,博士生导师,研 究方向:数据挖掘、图形图像处理、模式识别与人工智能等领域研究;孙霞(1977—),通讯作者,女,副教授,硕士生导 师,研究方向:数据挖掘、模式识别与人工智能等领域研究, E-mail: raindy@nwu.edu.cn。 收稿日期: 2016-12-26 修回日期: 2017-02-28 文章编号: 1002-8331 (2017) 18-0141-08
2. Computer Engineering and Applications 计算机工程与应用 2017, 53 (18) 142 及推荐方案。 用 CBRR),并将提出的算法和目前常见的协同过滤推荐 文献[2]用基于内容的算法进行职位推荐,并对闵 可夫斯基距离度量算法进行改进。文献[3-4]用基于协 算法作对比,实验结果证明互惠推荐算法能够显著提高 应 推荐效果及招聘成功率,帮助企业节约招聘成本。 同过滤的推荐算法来推荐符合要求的简历。文献[5]通 与 过对已有的职位描述信息手动打标签形成职位描述信 程 息库,采用关联模型来进行职位描述信息和简历之间的 2 中文简历自动解析及推荐算法总体框架 中文简历自动解析及推荐算法主要包括电子简历 g r 工 o . j 机 a e 算 c . 计 w w w 匹配。文献[6-8]用混合的基于协同过滤算法和基于内 自动解析及推荐两部分内容,如图 1,不同于传统的在线 容的推荐算法来实现简历自动筛选。以上研究都是基 招聘系统,本文提出的算法框架不仅能够自动从半结构 于求职者在线填写的结构化数据来实现推荐,不能自动 化电子简历文本中抽取简单属性信息,还可以自动抽取 处理求职者在线提交的电子简历并进行筛选,而且都只 考虑了求职者或企业的单方需求,不能同时满足两者 偏好。 还有一些学者在研究如何从半结构化电子简历中 自动抽取一些有用的信息 [9-20] 。文献[9]使用信息抽取工 具包(LP) 2 来学习得到英文简历抽取规则,定义了八种 简单信息抽取规则,包括姓名、街区、城市、省份、邮箱、 电话、传真以及邮政编码。文献[10]提出使用级联的混 合简历信息抽取方法,文献[11]利用 CRF 模型来解决英 文 PDF 格式简历文本信息抽取任务,他们都忽视了个人 基本信息的强规则性,导致抽取结果的准确率和召回率 比较低,并且他们的研究都针对英文简历,由于中英文 表达方式的差异,他们的方案在中文简历信息抽取研究 中不适用。 简历文本信息抽取不同于其他传统的信息抽取问 题 [12] ,因为电子简历文件格式有多种,比如 txt、 pdf、 doc 等,而且简历排版样式也因人而异。与传统的信息抽取 问题相比,简历文本信息抽取更具有挑战性。同时,招 聘推荐系统涉及求职者和企业双边利益,只有满足双方 偏好才能达到互利共赢的局面,但是现有研究很少同时 关注求职者和企业双方需求。 本文在总结分析前人研究内容的基础上,提出一种 针对中文简历的自动解析及推荐新方案。依据中文简 历层次化结构,提出基于规则和统计模型相结合的中文 简历信息抽取方法,不仅可以抽取简历中姓名、性别及 工作经历等复杂信息,同时能够根据企业及求职者双方 偏好提供互惠推荐。 首先,进行电子简历自动解析时基于层次化简历结 构,对整个简历文本进行分块,并将此简历分块问题看 作文本分类问题处理,将整个简历文本以换行符分割为 句子,并对所有句子经分词、词性标注等预处理及特征 选择,表示特征向量,采用 SVM 算法将所有句子分成预 定义的六个通用类别,比如个人基本信息类、教育经历 及工作经历等。考虑不同通用类别文本块表述特点,采 用分而治之的思想从分类结果中进一步抽取详细信息, 对于简单属性,比如姓名、年龄和手机号码等采用基于 规则的方法;对于复杂信息,比如工作经历、教育经历等 采用基于 HMM 统计模型的方法处理。 其次,对半结构化电子简历经过信息抽取后,形成 结构化信息,将抽取结果存储在简历库中,和其他简历 一起经过筛选推荐给企业招聘人员。 最后,在简历推荐中,本文提出了不同于传统的用 户-物品单向推荐算法,在考虑求职者和企业双方偏好 的 基 础 上 提 出 了 基 于 内 容 的 互 惠 推 荐 算 法(CBRR)。 综合考虑企业和求职者基本信息及偏好,利用企业招聘 职位和求职者应聘简历之间的历史交互数据,采用改进 的相似度度量算法计算求职者满足企业偏好程度及企 业满足求职者偏好程度,并计算互惠得分,根据互惠得 分排名为企业推荐合适求职者。 联系方式等简单信息,而且能够从工作经历这类复杂信 息中抽取企业关注的内容。除此之外,本文同时考虑求 职 者 和 企 业 的 偏 好 ,提 出 基 于 内 容 的 互 惠 推 荐 算 法 (Content- Based Reciprocal Recommender algorithm, 简历信息抽取 简单信息 3 基于规则和统计模型相结合的简历文本信息 抽取方法 中文简历内容通常包含个人基本信息、教育和专业 结构化简历 信息库 基于规则的方法 简历分块 电子简历 复杂信息 基于统计的方法 在线招聘信息 图 1 中文简历自动解析及推荐算法框架 候选人列表 基于内容的简历 互惠推荐
3. 谷楠楠,冯 筠,孙 霞,等:中文简历自动解析及推荐算法 2017, 53 (18) 143 用 背景、工作经历及求职意向等信息。本文将中文简历看 配技术进行简历文本分块。关键字匹配算法是以简历 作是层次化的结构。第一层由通用类别构成,比如个人 内容为导向,将个人基本信息、求职意向、自我评价、教 基本信息、教育信息、求职意向信息等类别。在每个通 育经历、工作经历这些通用类别信息关键词及与其意义 用类别下,包含对应的详细信息,例如在个人基本信息 相近或相关的词语收集起来,将这些关键词作为分块标 类别下包含姓名、住址、邮箱等详细信息。通用类别和 记,进行分块。例如对于教育背景相关关键字正则表达 详细信息模板定义如表 1。 应 与 程 式内容为“教\s*育\s*背\s*景|教\s*育\s*经\s*历|学\s*习 g r 工 o . j 机 a e 算 c . 计 w w w 表 1 通用类别和详细信息定义 通用类别 详细信息 个人基本信息 (B 1 ) 姓名、性别、生日、住址、手机号码、邮箱 求职意向 (B 2 ) 工作性质、期望工作地点、期望职位、 期望薪资 自我评价 (B 3 ) 专业技能、性格特点 教育经历 (B 4 ) 时间、学校、专业、学历 工作经历 (B 5 ) 其他 (B 6 ) 工作时间 (W 1 ) 、公司名称 (W 2 ) 、 职位名称 (W 3 ) 、工作内容 (W 4 ) 其他详细信息 根据简历层次化结构,文本首先将整个简历文本分 \s*经\s*历|求\s*学\s*经\s*历|学\s*习\s*经\s*历|教\s*育 \s*概\s*况|教\s*育|学历教育”,工作经历相关关键字正 则表达式内容为“工\s*作\s*经\s*验|工\s*作\s*经\s*历| 工\s*作|工\s*作\s*历\s*史|工\s*作\s*背\s*景|工\s*作\s* 简\s*介|工\s*作\s*能\s*力”。算法具体步骤为: 步骤 1 将所有电子简历转为纯文本形式。 步骤 2 将每份简历和预先设置的通用类别关键字 正则表达式进行匹配,若匹配成功,则认为此处是该类 别信息开始位置,将位置信息记录下来。 步骤 3 获取所有类别关键字位置,并按照记录的位 置进行文本块划分。 成六个通用类别文本块,将简历分块问题看作文本分类 关键字匹配算法的分块效果极大程度上取决于关 问题处理,将所有句子表示为特征向量后,用文本分类 键词库是否全面,本文通过观察总结大量简历,人工确 算法进行分类。然后从分类结果中进一步抽取详细信 定关键词库。本文将待处理的简历分为两类:标准格式 息,提出基于规则和统计模型相结合的简历信息抽取方 的简历和样式丰富的非标准格式简历。标准格式简历 法,针对规则性较强的文本块,比如个人基本信息块,采 如图 2 所示,简历中每个通用类别信息块及每项详细信 用基于规则的方法;对复杂信息,比如工作经历信息,采 息都有明显的关键字,每个模块划分明确,按照自上而 用 HMM 统计模型抽取详细信息,比如工作时间、职位 下的形式书写,没有花哨的布局样式,对于这种简历采 及工作内容等。 用关键字匹配算法处理准确率较高。但是目前大多数 3.1 中文简历分块 简历分块的结果会被应用到下一步的详细信息抽 取中,因此需要寻找有效的分块方案。本文对比了利用 关键字匹配的文本分块方法和基于文本分类算法的简 历分块方法。关键字匹配方法通过采用正则表达式匹 配的方法将简历文本和预先设定的通用类别关键词词 典进行匹配划分不同文本块,通用类别关键词词典中主 求职者为了追求简历的美观,会添加一些花哨的样式, 采用表格布局或采用如图 3 所示的左右分栏样式,这种 带样式信息的简历转为纯文本后导致左右两侧内容产 生交叉,而且有的部分不包含预先设定的关键词信息, 导致采用关键字匹配的方法失效。因此本文采用基于 支持向量机的文本分类算法来解决简历文本分块问题, 实现对样式各异简历的分块处理。 要包含“工作经历”、 “工作经验”、 “教育经历”及“个人基 本信息”等关键词;而基于文本分类算法的简历分块方 法将简历分块问题看作分类问题来处理,将每份简历按 照换行符分割成一个个句子,然后将每个句子表示成特 征向量,将简历文本分块看作是给分割之后的每个句子 划分类别的问题。支持向量机(Support Vector Machine, SVM)是 Corinna Cortes 和 Vapnik 等于 1995 年首先提出 的,在解决小样本、非线性及高维模式识别中表现出许 多特有的优势,并能够推广应用到函数拟合等其他机器 学习问题中,通常用来进行模式识别、分类以及回归分 析。SVM 模型处理过拟合问题具有很好的鲁棒性而且 算法处理性能高,因此本文使用 SVM 作为分类模型。 3.1.1 基于关键字匹配的简历文本分块 通过分析简历文本特点,发现大部分简历文本块内 容固定,并且具有类别关键字,因此本文采用关键字匹 图 2 标准格式简历示例
4. 2017, 53 (18) 144 Computer Engineering and Applications 计算机工程与应用 用 来解决多类分类问题,目前主要通过组合多个二分类器 来实现多分类器的构造,常见的有一对多和一对一方 应 法。一对多的方法通常首先将某个类别的数据归为一 类,其余所有类别的数据归为另外一类,于是 N 个类别 与 的数据就产生了 N 个 SVM 分类器,分类时将未知样本 程 归为具有最大分类函数值的类别。一对一方法在任意 g r 工 o . j 机 a e 算 c . 计 w w w 两个类别之间设计一个 SVM 分类器,因此 N 个类别的 数据就需要设计 N(N - 1)/2 个 SVM 分类器。本文使用 一对一的策略来构造多类分类器。 3.2 基于规则和统计模型相结合的简历详细信 息抽取 t 未出现的次数, D 表示词语 c 和 t 都未出现的次数, N 3.2.1 基于规则的简历信息抽取方法 在个人基本信息和工作意向详细信息抽取中,根据 中文简历的词法和语法特征,通过手动构建抽取规则来 实现关键信息抽取。例如,个人基本信息块中的姓名项 可以通过利用简历文本中姓名命名实体标注和中文姓 氏表来制定规则进行抽取。 W 代表中文关键字, P 代表词语对应的词性标签, T 代表需要被抽取的详细信息,角标 [-2, -1,0,1] 分别 代表当前词前面的第二个词、当前词前面的第一个词、 当前词、当前词的后一个词。本文以抽取姓名和邮箱为 例,规则展示如下: (1)姓名 如 果 文 本 块 中 包 含 关 键 字“ 姓 名 ”或“ 名 字 ”,用 re_name 代表“姓名”或“名字”关键字, wp 代表词性为 表示文档总数。 标点符号, n 代表名词词性,抽取规则为: 图 3 样式丰富的非标准格式简历示例 3.1.2 基于支持向量机的简历文本分块 本文将简历文本经过分词、词性标注、去停用词等 预处理步骤之后的所有词汇作为原始特征,原始特征维 数高,因此本文采用卡方统计模型进行特征降维,其定 义如下: 2 N × ( AD - CB ) χ ( t,c ) = (1) ( A + C ) × ( B + D ) × ( A + B ) × ( C + D ) 2 其中, t 指简历中的词语, c 指简历中特定的通用信息 类别, A 表示词语 t 和 c 同时出现的次数, B 表示词语 t 出现而词语 c 未出现的次数, C 表示词语 c 出现而词语 W -2 ( re_name ) + P -1 ( wp ) + P 0 ( n ) → T 0 (5) 语在简历中出现的频率, IDF 表示逆文档频率,其定义 W -1 ( re_name ) + P 0 ( n ) → T 0 (6) 如下: 如果文本块中不包含关键字“姓名”或“名字”,用 本文使用 TF-IDF 作为特征权重计算方法, TF 指词 æ N ö IDF w i = lb ç (2) ÷ è DF w i ø 其中 N 代表训练文档总数, DF w i 代表包含词语 w i 的 文档总数。 简历由一串句子序列 S = s 1 ,s 2 ,⋯,s n 构成,对应的 类标签为 L = l 1 ,l 2 ⋯,l n , l i ∈ B j , 1 ≤ j ≤ 6 , B j 指表 1 中 B 1 ~B 6 通用信息类型第 j 项,则序列标签概率最大化。 L = arg max P(L|S) L (3) 用分类算法来解决文本分块问题首先假设不同块 间的类标签是相互独立的,依据这一假设,上述公式可 以被描述为: L = arg max n ∏ P ( l i |s i ) L = l 1 ,l 2 ,⋯,l n i = 1 (4) 因此可以通过最大化公式中每一项来使该公式值 最大。 P ( l i |s i ) 可以被看作将 s i 标记为 l i 类的 SVM 概率。 SVM 算法最初是为二分类问题设计的模型,但是 在简历分块问题中,类标签共有六个,需要用 SVM 算法 surname_keyword 代表当前词汇可以在中文姓氏表匹 配成功, name_keyword 代表当前词在中文常用名表中 匹配成功,抽取规则为: W -1 ( surname_keyword ) + W 0 ( name_keyword ) → T -1 + T 0 (7) (2)邮箱 如 果 文 本 块 中 包 含 关 键 字“E- mail” “email” / “ / 邮 箱” “电子邮箱” / ,用 re_mail 代表上述关键字, wp 代表 词性为标点符号, email 代表分词之后的命名实体标注 为邮箱,则规则为: W -2 ( re_mail ) + P -1 ( wp ) + P 0 ( email ) → T 0 (8) W -1 ( re_mail ) + P 0 ( email ) → T 0 (9) 3.2.2 基于 HMM 算法抽取详细信息 一般将信息抽取任务看作统计机器学习中的序列 标注问题来处理。HMM 是常见的解决序列标注问题的 机器学习算法,在序列标注问题中,假定状态值不仅取 决于其对应的观察值,更取决于序列中其他观察值。本
5. 谷楠楠,冯 筠,孙 霞,等:中文简历自动解析及推荐算法 章以抽取工作经历信息为例,展示提出的方法。 2017, 53 (18) 145 用 影、音乐、书籍等),只需要满足被服务对象的单方需求 首先,使用中科院提供的中文分词工具 NLPIR 将工 即可。但是在线简历推荐系统不同于传统推荐,当为企 作经验文本块中文本进行分词处理,分词之后的结果是 业推荐求职者简历时,企业作为被服务用户,求职者作 带有命名实体标注/词性标注的词汇,将分词之后的结 为被推荐者,两个之间存在相互偏好,因此为了提高推 果看作观察值。在词序列中使用 BIO 标签标注每个详 荐准确率以及成功率,简历推荐系统应该同时考虑求职 细信息的边界。如表 1,对每种详细工作经验信息 W i , 者和企业的偏好。 应 与 程 g r 工 o . j 机 a e 算 c . 计 w w w 用 W i - B 代表 W i 的起始边界, W i - I 代表 W i 的中间 为了达到求职者和企业招聘人员互利共赢的局面, 部分,除此之外,标签 O 代表该词汇不属于任何详细信 本文依据求职者简历投递情况及企业历史录用的简历 息类型,将此类位置信息标签看作是隐状态。标注规则 情况,提出了基于内容的互惠推荐算法(CBRR),算法 如表 2。 能同时考虑双方偏好,提高企业招聘效率及成功率。 表 2 4.1 工作经历信息标注规则 特征选择及预处理 本文选择能够反映求职者和招聘人员基本信息及 抽取的内容 开始 中间部分 工作时间 TIMEB TIMEI 偏好的属性,最终选择的属性有 7 个,分别是月薪、工作 公司名称 COMB COMI 地点、工作性质、职位、学历、专业、工作时间,求职者简 职位名称 PROFB PROFI 工作内容 历和企业招聘信息这些属性之间存在对应关系,如图 4。 CONB CONI compat(Q v ,P u ) 通 过 手 工 标 注 数 据 集 ,采 用 最 大 似 然 估 计(the Maximum Likelihood, ML)算法来训练 HMM 模型。训 练中共涉及三个参数:初始概率 π ,转移概率矩阵 A 以 及发射概率矩阵 B 。初始概率为: I π i = N i ,1 ≤ i ≤ N ∑ I j 企业招聘 职位基本 信息 Q v (10) I i 指以某一特定状态为起始状态的初始概率, N 代表模型中状态数目。 转移概率矩阵 A 中的元素 a ij 定义为: a ij = N ∑ C i,k   , 1 ≤ i,j ≤ N 企业招聘 职位偏好 信息 P v (11) 图 4 k= 1 M ∑ E j ( V i ) ,1 ≤ j ≤ N,1 ≤ k ≤ M (12) 职位名称 期望职位 学历要求 最高学历 专业要求 专业 工作经验(时间) 工作经验(时间) 求职者基 本信息 Q u 求职者简历和企业招聘职位属性对应关系 才网等大型招聘网站常见的月薪区间划分策略,对其进 行离散化处理。针对类别属性,比如学历,每个类别作 项值为 0,用二值属性表示每个特征,形成特征向量。 每个观察值的发射概率是文本块中所有发射概率 的总和,即: 4.2 推荐算法描述 设 i = { 1,2,3,4 } 表示薪资、工作地点、工作性质、职 (13) k= 1 位名称这四个属性; j = { 1,2,3 } 表示学历、专业、工作时 间这三个属性。用 U 表示求职者, V 表示企业职位。 K 代表观察值的数目。 采用维特比算法(Viterbi algorithm)来寻找和观察 值序列相匹配的最大概率状态序列。 4 期望工作性质 求职者偏 好信息 P u 为一个特征。如果某一特征符合该项值就为 1,否则该 E j (V k ) 代表由状态 S j 发射出 V k 的次数。 b j ( O t ) = ∑ b j ( O tk ) 工作性质 标量属性,比如月薪和工作经验,根据智联招聘、中华英 i= 1 K 期望工作地点 个属性采用不同的数据预处理策略。对于区间属性和 发射概率矩阵元素 b j ( V k ) 定义为: b j ( V k ) = 工作地点 这些属性包含区间类型、标量类型、类别类型,对每 C i,j 代表从状态 S i 到状态 S j 的转移数目。 E j ( V k ) 期望薪资 compat(Q u ,P v ) j= 1 C i,j 职位薪资 P ui 表示求职者 u 对属性 i 的偏好, Q uj 表示求职者 u 个人基本信息中属性 j 的值, Q vi 表示企业招聘职位 v 的属性 i 的值, P vj 表示企业招聘职位 v 对属性 j 的偏 好。得到四个特征向量之后,来计算求职者基本信息满 基于内容的简历互惠推荐算法研究 目前常见的推荐算法有基于内容推荐、基于用户/ 足企业偏好的程度,表示为 compat ( Q u ,P v ) ,以及企业 ,传 基本信息满足求职者偏好的程度 compat ( Q v ,P u ) ,然后 统的用户-物品推荐,推荐对象是被动的物品(比如电 计算他们的调和平均数,得到简历和职位信息之间的互 基于物品的协同过滤推荐以及混合的推荐算法 [21-22]
6. Computer Engineering and Applications 计算机工程与应用 2017, 53 (18) 146 用 惠得分值,按照互惠得分排序,推荐 top N 给企业。 N Algorithm CBRR 其中, w i = 应 Input: i, j,U,V Output: recip(u,v) 与 Begin ∑ a ik k= 1 4 N (17) ∑ ∑ a ik i= 1 k= 1 N 表示求职者 u 历史投递的职位总数。 a ik 表示在 /*初始化 compat(Q u ,P v ),compat(Q v ,P u ),recip(u,v) */ 求职者 u 已投递的所有职位中,第 k 个职位是否满足求 /*计算简历满足招聘职位偏好的程度*/ 职者偏好中的第 i 个属性,如果第 k 份简历满足职位招 程 g r 工 o . j 机 a e 算 c . 计 w w w foreach j,u ∈ U,v ∈ V M w j ← ∑ a jk k= 1 3 M ∑ ∑ a jk j= 1 k= 1 聘要求中的第 i 个属性,则 a ik 等于 1,否则等于 0。 (3)考虑既满足求职者偏好又满足企业偏好,考虑 互惠性,用调和平均数来表示两者联系。 2 recip ( u,v ) = compat(Q u ,P v ) ← 3 ∑ (w j × Q uj × P vj ) j= 1 3 3 j= 1 j= 1 end for N k= 1 4 N ∑ ∑ a ik i= 1 k= 1 compat(Q v ,P u ) ← 为了验证本文提出的算法在处理样式各异的电子 4 ∑ (w i × Q vi × P ui ) i= 1 4 4 简历时的有效性,本文从当前流行的在线招聘网站(中 i= 1 i= 1 华英才网、智联招聘等)下载不同样式的中文电子简历 ( ∑ Q vi 2 ) × ( ∑ P ui 2 ) 共 1 000 份,设计多组实验来验证本文提出的简历文本 end for 2 recip(u,v) ← (compat(Q u ,P v )) -1 + (compat(Q v ,P u )) -1 信息抽取算法。每一份简历都被手动打上标签,在标注 之前有明确的标注说明文档。每组实验都按照 7 ∶3 的 return recip(u,v) 比例分配训练数据集和测试数据集,并进行 6 折交叉 end 验证。 (1)计算求职者基本信息满足企业偏好的程度: 实验中选择 LIBSVM 作为 SVM 分类器工具包,中 3 compat ( Q u ,P v ) = ∑ ( w j × Q uj × P vj ) 科院分词工具 NLPIR 作为分词和命名实体识别工具。 j= 1 (14) æ 3 2 ö æ 3 2 ö çç ∑ Q uj ÷÷ × çç ∑ P vj ÷÷ è j= 1 ø è j= 1 ø 认为抽取结果和标注结果达到 90%以上匹配才相等。 ∑ a jk 本文采用准确率(P)、召回率(R)和 F 值作为评价准则, k= 1 3 M (15) ∑ ∑ a jk 分块策略的有效性,设计了一组对比实验。实验都采用 M 表示招聘职位 v 历史录取的简历总数。 a jk 表 基于规则和 HMM 模型相结合的方法,但是第一个实验 示在职位 v 已录取的所有简历中,第 k 份简历是否满足 职位信息中的第 j 个属性,如果第 k 份简历满足职位招 没有进行分块处理,而是直接从整个简历中抽取有用信 息;第二个实验将简历分块问题转化为文本分类问题, 聘要求中的第 j 个属性,则 a jk 等于 1,否则等于 0。 用 SVM 算法将简历中所有句子划分为六个预定义通用 (2)企业基本信息满足求职者偏好的程度为: 类别,然后再从特定的类别中进一步抽取对应的详细信 4 ∑ ( w i × Q vi × P ui ) 息,而不是从整个简历文本中。实验结果展示如表 3,可 i= 1 (16) æ 4 2 ö æ 4 2 ö ç ∑ Q vi ÷ × ç ∑ P ui ÷ è i= 1 ø è i= 1 ø 以看出采用文本分块的策略代替直接从整个简历进行 抽取将个人基本信息的 F 值提高了 5.53%,将抽取工作 经历的 F 值提高了 11.07%。 表 3 抽取单元 设计多组实验来验证提出的简历信息抽取方法。 (1)为了验证在中文简历信息抽取过程中进行文本 j= 1 k= 1 compat ( Q v ,P u ) = 在文本分块实验中,若分块结果与手工标注结果匹配率 达到 90%以上认为相等,同样在详细信息抽取结果中, M 其中, w j = ( 18 ) -1 + ( compat ( Q v ,P u ) ) 5 实验结果评估 5.1 基于规则和统计模型相结合的简历文本信 息抽取实验 foreach i,u ∈ U,v ∈ V w i ← ∑ a ik -1 ( compat ( Q u ,P v ) ) ( ∑ Q uj 2 ) × ( ∑ P vj 2 ) 文本分块的有效性 个人基本信息(基于规则) 工作经验信息(基于 HMM 模型) 平均准确率/% 平均召回率/% 平均 F 值/% 平均准确率/% 平均召回率/% 平均 F 值/% 整个简历 88.56 87.83 88.19 67.25 72.54 69.79 特定文本块 94.23 93.22 93.72 81.12 80.61 80.86
7. 谷楠楠,冯 筠,孙 霞,等:中文简历自动解析及推荐算法 表 4 2017, 53 (18) 用 基于关键字匹配和 SVM 分类算法文本分块实验结果 标准格式简历数据 分块方法 147 应 模板各异的混合简历数据 平均准确率/% 平均召回率/% 平均 F 值/% 平均准确率/% 平均召回率/% 平均 F 值/% SVM 算法 84.58 86.34 85.45 82.22 84.98 83.58 关键字匹配方法 90.23 92.68 70.89 74.85 72.82 与 程 (2)为了证实基于文本分类的算法处理简历文本分 91.44 基于 HMM 算法的详细工作经验抽取结果如表 7, g r 工 o . j 机 a e 算 c . 计 w w w 块问题比关键字匹配方法更有效,本文建立了简历文本 整体结果较好,这是因为在简历中,通常公司名、工作时 通用类别关键词表,采用基于关键字匹配的算法和基于 间、职位类别、职位名称和工作内容基本依次序出现,且 SVM 文本分类算法分别在标准数据集和混合数据集 有较明显的特征词,比如公司名称通常由一个语义块构 (包含标准格式和非标准格式简历)中进行实验,实验结 成,并且具有“公司”、 “集团”等特征词;工作时间具有数 果如表 4。 字和“年”、 “月”等特征词。 实验结果显示,在处理标准格式简历时,关键字匹 表 7 配算法效果明显优于基于文本分类的算法,但是当加入 样式丰富的不同模板的简历数据时,基于 SVM 文本分 基于 HMM 模型的详细工作经历信息抽取结果 详细工作经历信息 准确率/% 召回率/% F 值/% 工作时间 86.26 82.47 84.32 公司名称 88.93 84.56 86.69 职位名称 83.52 80.84 82.16 工作内容 65.78 74.55 69.89 类算法效果明显好于基于关键字匹配的方法,将 F 值提 升了约 11%,因为关键字匹配算法只能处理那些有明显 类别关键字、格式标准、模块划分清晰的简历数据,有一 定局限性, 而文本分类的方法能够兼容样式各异的简历。 (3)本文抽取详细个人基本信息时,采用手工构建 5.2 基于内容的简历互惠推荐算法实验 正则表达式的方法实现;而针对详细工作经验信息,本 为了验证本文提出推荐算法的有效性,需要进行实 文采用基于 HMM 模型的算法。通过分而治之混合的 验验证,但由于目前简历推荐领域还没有统一和权威的 方法和单独地基于规则或基于统计模型的实验结果分 数据库,因此从某大型招聘网站选取计算机行业相关职 别进行对比,证实提出的基于规则和基于统计模型相结 位招聘信息共计 78 份,包括软件开发、数据库管理员、 合的方法的可行性。实验结果如表 5 所示。 前端开发工程师及软件测试工程师等常见职位,申请这 表 5 些职位的简历共 267 份,以这些求职者简历数据、招聘 详细信息抽取方法对比 职位信息数据以及这些职位和简历之间的交互行为作 方法 平均准确率/% 平均召回率/% 平均 F 值/% 仅基于规则 78.24 68.88 73.26 仅基于统计模型 71.98 82.34 76.81 离线实验结果通过计算准确率、召回率及 F1 值来 86.98 88.17 87.57 衡量。其中, R ( v ) 表示根据推荐算法为招聘职位 v 推 基于规则+ 基于统计模型 和其他方法相比,该方法得到了更好的 F 值,证明 了基于统计模型和 HMM 相结合的方法针对中文简历 抽取任务更加有效。 荐的求职者列表, T ( v ) 表示招聘职位 v 录取的求职者 列表。 ∑ v ∈ V R(v) ⋂ T(v) ∑ v ∈ V T(v) ∑ v ∈ V R(v) ⋂ T(v) Recall = ∑ v ∈ V R(v) Precision = (4)基于规则的详细个人基本信息抽取结果如表 6, 平均 F 值超过 93%,几乎能够达到人工抽取的水准,这 主要是因为个人基本信息的表述模式基本固定,而且具 有强规则性。其中“姓名”属性的抽取结果召回率较低, 主要是因为有的人名比较独特,常用人名词典中未包 含,比如“陈二牛”、 “ 李叶”、 “ 张末”、 “ 孙笋”等不常用的 人名就没有抽取到。 表 6 为实验数据集。 基于规则的详细个人基本信息抽取结果 (19) (20) 根据准确率和召回率计算 F1 值,计算公式为: F1 = 2 × Precision × Recall (21) Precision + Recall 图 5 展示了实验结果,通过和传统的协同过滤算法 实验结果进行对比,证实了本文提出的基于内容的互惠 详细个人基本信息 准确率/% 召回率/% F 值/% 推荐算法在 top-N 推荐中均优于基于协同过滤的推荐算 姓名 90.56 85.50 87.96 性别 法,当为企业招聘职位推荐的职位数目越来越多时,推 97.82 96.74 97.28 生日 92.14 93.65 92.89 荐效果也越来越好,当推荐简历数目达到 24 份时,文本 住址 94.34 89.13 91.66 提出的算法 F1 值达到 29.38%,而基于协同过滤的推荐 手机号码 94.02 96.82 95.40 算法 F1 值仅为 21.6%, F1 值提高了 7.78%,不仅如此,互 邮箱 96.48 97.46 96.97 惠推荐还能同时考虑求职者和企业的偏好,达到双赢。
8. Computer Engineering and Applications 计算机工程与应用 2017, 53 (18) 148 0.35 0.30 [4] Laumer S, Eckhardt A.Help to find the needle in a hay- 应 stack: Integrating recommender systems in an IT supported F1 值 0.25 与 0.20 0.15 程 staff recruitment system[C]//ACM Sigmis Cpr Confer- ence on Computer Personnel Research, Limerick, Ireland, 2009: 7-12. g r 工 o . j 机 a e 算 c . 计 w w w 0.10 0.05 0 图 5 用 IEEE, 2015: 533-538. 基于内容的互惠推荐算法 协同过滤算法 8 12 16 20 topN 24 28 基于内容的互惠推荐结果和协同过滤推荐结果对比 [5] Yi X, Allan J, Croft W B.Matching resumes and jobs based on relevance models[C]//SIGIR 2007: Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, the Netherlands, July 2007: 809-810. [6] Färber F, Weitzel T, Keim T.An automated recommenda- 6 结论 本文提出了一种能够帮助企业招聘人员自动解析 及推荐简历的整体方案,不同于传统的在线招聘系统, tion approach to selection in personnel recruitment[C]// Americas Conference on Information Systems, AMCIS 2003, Tampa, Fl, USA, August 2003. 本文提出的算法框架不仅能够自动从半结构化电子简 [7] Keim T.Extending the applicability of recommender sys- 历文本中抽取简历中简单信息,还可以自动抽取工作经 tems: A multilayer framework for matching human re- 历等复杂信息,同时能够根据企业及求职者双方偏好提 sources[C]//40th Annual Hawaii International Conference 供互惠推荐。 考虑到中文简历的层次化结构,首先,对整个简历 进行文本分块处理,并将此简历分块问题看作分类来处 理,采用 SVM 算法将整个简历中句子自动划分为六个 on System Sciences, 2007, HICSS 2007.IEEE, 2007. [8] Wang Q M, Liu X, Zhu R, et al.A new personalized rec- ommendation algorithm of combining content- based and collaborative filters[J].Computer & Modernization, 2013, 1 (8): 64-67. 通用类别,在进一步的详细信息抽取中,针对不同的通 [9] Ciravegna F, Lavelli A.Learningpinocchio: Adaptive infor- 用类别文本,分别采用基于规则和基于统计模型的方法 mation extraction for real world applications[J].Natural 完成;然后,考虑到企业和求职者双方偏好,采用基于内 Language Engineering, 2004, 10 (2): 145-165. 容的互惠推荐算法进行简历推荐。 实验结果显示,和基于关键字匹配的方法相比,文 本分类算法能更好地解决简历分块问题,因为它能更好 [10] Yu K, Guan G, Zhou M.Resume information extraction with cascaded hybrid model[C]//Proceedings of Associa- tion for Computational Linguistics, 2005: 499-506. 地处理一些不包含关键字的中文简历。另外,采用基于 [11] Chen J, Gao L, Tang Z.Information extraction from 规则的方法抽取个人基本信息取得了很高的准确率和 resume documents in PDF format[J].Electronic Imag- 召回率,因为简历文本个人基本信息本身规则性很强。 HMM 算法对处理教育信息和工作经历信息也很有效。 和传统的基于协同过滤的推荐算法对比,本文提出的基 于内容的互惠推荐算法推荐结果更佳,而且由于同时考 虑了企业和求职者的偏好,也能更好地促进企业有针对 性发布面试邀请,提高招聘成功概率。 ing, 2016. [12] 李保利,陈玉忠,俞士汶 . 信息抽取研究综述[J]. 计算机工 程与应用, 2003, 39 (10): 1-5. [13] Lin Hailun, Wang Yuanzhuo, Zhang Peng, et al.A rule based open information extraction method using cas- caded finite- state transducer[C]//Pacific_asia Conference on Knowledge Discovery & Data Mining, 2016, 17 (3): 325-337. 参考文献: [1] 艾瑞咨询 .2016 年中国网络招聘行业发展报告[R]. 中国: 艾瑞咨询, 2016: 14-15. [2] Almalis N, Tsihrintzis G, Karagiannis N.A new content- based recommendation algorithm for job recruiting[M]// Research and Development in Intelligent Systems XXXII. [S.l.]: Springer International Publishing, 2015: 151-162. [3] Zhang Y, Yang C, Niu Z.A research of job recommenda- tion system based on collaborative filtering[C]//Interna- tional Symposium on Computational Intelligence & Design. [14] Kluegl P, Toepfer M, Beck P D, et al.UIMA ruta: Rapid development of rule-based information extraction appli- cations[J].Natural Language Engineering, 2016, 22 (1): 1-40. [15] Maarouf I E, Villaneau J.Parenthetical classification for information extraction[C]//Coling 2012: Posters, 2012: 297-308. [16] Zhou Fankun.Research of domain- oriented extraction method of text information[D].Nanjing: Nanjing Univer- sity of Posts and Telecommunications, 2014. (下转 270 页)

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-22 14:52
浙ICP备14020137号-1 $Map of visitor$