基于新型文本块分割法的简历解析

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. / /www. h t t s kx. c om p: j j DOI: 10. 11896/ s kx. 190800135 j j 基于新型文本块分割法的简历解析 祖石诚 王修来 曹 东部战区总医院博士后站 摘 要 阳 张玉韬 梁 珊 南京 210000 近些年, 基于神经网络的文本分类器和词嵌入在自然语言处理中被广泛应用.然而, 传统的简历解析器采用基于 关 键 字的模糊匹配或正则表达式来进行文本块分割.文中提出了一种基于神经网络文本分类器和词向量的端到端的管道来进 行 简 历解析.新的文本块分割法充分利用了基于简历行的位置信息和每个文本块内信息集成关联的性质.行类别分类器和行 标 签 分类器对简历行的协调分类能有效地将一份简历分割成预定义标签的文本块.该简历解析管道能把上游的文本块分割与 下 游 的具体信息识别结合起来.在具体信息抽取中, 各种序列标注 分 类 器 在 已 被 分 割 的 文 本 块 中 识 别 命 名 实 体.与 4 种 序 列 标 注 分类器的识别性能对比, 确立了 BLSTMGCNNs GCRF 在命名实体识别中 的 优 势.与 其 他 3 种 已 经 发 表 的 简 历 解 析 器 的 对 比 评 估, 验证了所提文本块分割法的有效性. 关键词: 简历解析; 文本分类器; 词向量; 命名实体识别; 序列标记分类器 中图法分类号 TP391. 1 Re s umePa r s i ngBa s e donNo v e lTe x tB l o ckS e t a t i on Me t hodo l o gmen g y ZUSh i G cheng,WANG Xi u G l a i, CAO Yang, ZHANG Yu G t aoandLIANGShan Po s t G do c t o r a lSc i en t i f i cRe s e a r chS t a t i oni nEa s tWa rDi s t r i c tGene r a lHo sp i t a l, Nan i ng210000, Ch i na j Ab s t r a c t I nr e c en tye a r s, t ex tc l a s s i f i e randwo r dembedd i ngba s edonneu r a lne two r khavebe enwi de l edi nna t u r a ll anguage yus r o c e s s i ng. Howe ve r, t r ad i t i ona lr e sumepa r s e r sr e l r dsba s edf u z z t ch i ngo rr egu l a rexp r e s s i onf o rt ex tb l o cks eg G p yonkeywo yma men t a t i on. Th i spape rp r opo s edanend G t o G endp i l i nef o rr e sumepa r s i ngba s edonneu r a lne two r kt ex tc l a s s i f i e randwo r dve c G pe t o r. Th i snove lt ex tb l o cks egmen t a t i ona l r i t hml e ve r age st hepo s i t i on Gwi s el i nei n f o rma t i onandi n t eg r a t ed me an i ngso fe a ch go t ex tb l o ck. Thec oo r d i na t edc l a s s i f i c a t i ono fr e sumel i ne sbybo t hl i net l a s s i f i e randl i nel abe lc l a s s i f i e re f f e c t i ve l egmen t sa ypec ys r e sumei n t ot ex tb l o ckso fp r ede f i nedl abe l. Thep r opo s edp i l i nec omb i ne st heups t r e amt ex tb l o cks egmen t a t i onwi t ht hedown G pe s t r e amspe c i f i ci n f o rma t i onr e c ogn i t i on. I nspe c i f i ci n f o rma t i onex t r a c t i on, va r i ouss e el abe l i ngc l a s s i f i e r spe r f o rmnameden G quenc t i t e c ogn i t i oni nt hes egmen t edt ex tb l o cks.Compa r a t i vee va l ua t i ono ff ou rs e el abe l i ngc l a s s i f i e r sc on f i rmsBLSTMG yr quenc CNNs GCRF’ ssupe r i o r i t nnameden t i t e c ogn i t i on. Fu r t he rc ompa r a t i vee va l ua t i onwi t ho t he r3pub l i shedr e sumepa r s e r sa l s o yi yr ve r i f i e st hee f f e c t i vene s so ft hep r opo s edb l o ckc l a s s i f i c a t i onme t hod. Ke r d s Re sumepa r s i ng, Tex tc l a s s i f i e r,Wo r dve c t o r, Nameden t i t e c ogn i t i on, Se el abe l l i ngc l a s s i f i e r yr quenc ywo 1 引言 最近十年, 求职招聘 从 传 统 的 招 聘 会 快 速 转 变 为 了 第 三 等.简历布局的多样 性 降 低 了 简 历 解 析 的 有 效 性, 同 时 也 进 一步影响了候选人推荐.这些因素常常导致一部分优秀的 求 职者疑惑自己的简历为什么没有出现在候选人名单中. 方在线招聘.简历是求职者向公司人力资源或猎头展示自 身 一份典型的简历通 常 采 用 文 档 级 别 的 分 层 结 构, 表 现 为 技能和经验的正式 文 件. 据 不 完 全 统 计, 一 些 知 名 的 第 三 方 相关的概念或事实被分组在同一文本块中.求职者把不同 类 招 聘门户每年会收到 3000 万份来自求职者上传的个人简历. 别的文本块以连续任意的顺序排列.文本块的一般类别包 括 这些海量个人数据因具有巨大的潜在应用价值吸引了全世 界 个人信息、 求职意向、 自 我 评 价、 教 育 背 景、 工 作 经 历、 项 目 经 学者的目光, 潜在应 用 包 括 简 历 推 荐、 简 历 实 体 建 立、 求 职 者 历、 专业和语言技能、 兴趣爱好、 荣誉成就、 文献发表和推 荐 人 建模和简历管理等.然 而, 求 职 者 经 常 按 照 自 己 的 思 路 撰 写 等.具体信息如个人信息中的电话号码或教育背景中的毕 业 简 历 并 把 它 们 上 传 到 招 聘 平 台 的 数 据 库 中, 导 致 了 简 历 格 式 院校等, 能从特定文本块中提取. 如字体、 字号、 字体颜色等五花八门.求职者通常以表格 或 自 然段的形式排版简历. 在对比大量简历的 过 程 中, 我 们 发 现 简 历 的 书 写 习 惯 不 能 保 持 统 一, 具 体 表 现 为 同 一 文 本 块 的 标 题 会 被 各 种 近 义 词 我们将简历的解析 过 程 标 准 化, 重 点 关 注 6 种 文 本 块 的 一般类别: 个人信息、 教 育 背 景、 工 作 经 历、 项 目 经 历、 专 业 技 能和文献发表.我们认为这 6 类一般类别从本质上反映 了 求 职者的才能和经验.其他字段, 例如兴趣爱好、 领导才能 和 推 或词组表示, 对文本块的排列顺序也是不固定的.此外, 求 职 荐人会根据 不 同 简 历 时 有 时 无, 不 在 我 们 的 研 究 范 畴 之 内. 者保存简历为各种文 件 类 型, 例 如 TXT, PDF 和 DOCX 文 档 表 1 整理了这 6 种 一 般 类 别 字 段 和 19 种 具 体 信 息 字 段. 目 本文已加入开放科学计划( OS ID), 请扫描上方二维码获取补充信息. 通信作者: 祖石诚( z s c 1988419@163. c om)
2. Compu t e rSc i enc e 计算机科学 Vo l. 47, No. 6A, June2020 9 6 前主流的简历解析器利用词汇特征( 如关键字匹配) 对简历 进 行文本块分割.基于每个文本块, 系统通过不同特征组 合, 例 如词汇特征、 文本特征、 命名实体特征和视觉特征识别出具 体 的简历信息.本文提出的以神经网络为基础的简历信息抽 取 表 1 简历信息抽取的信息字段 工作经历 项目经历 文本块中识别出命名实体 [6] . 2. 2 网页简历的信息抽取 中提取信息和模式 [7] . 在 文 件 对 象 模 型 中, 内 部 节 点 表 示 属 性, 叶子节点表示具 体 信 息. 标 签 树 算 法 能 将 各 种 网 页 解 析 Tab l e1 I n f o rma t i onf i e l dsex t r a c t i ono fr e sumei n f o rma t i on 教育背景 信息.简历分割器把简历分割成文本块.概念识别器从 这 些 J i 等基于文件对象模型设计的标签树算法能 从 网 页 简 历 算法避免了额外的特征构建. 个人信息 割器和概念识别器 [6] . 表 格 分 析 器 将 表 格 分 类, 并 从 中 提 取 专业技能 文献发表 文献名称 姓名 本科院校 公司名称 项目名称 语言能力 家庭住址 研究生院 职位名称 项目周期 计算机技能 电话号码 毕业日期 工作周期 项目描述 邮箱地址 专业名称 职位描述 成标签树, 并通过计 算 树 的 相 似 度 获 取 标 签 树 模 板 [7] . 标 签 树 模 板 将 简 历 解 析 成 独 立 的 文 本 块, 之 后 通 过 查 询 重 复 模 式 或启发式规则 抽 取 具 体 信 息.EXPERT 是 一 款 基 于 本 体 论 为求职者建模的简历推荐系统 [8] .该系统为个人简历和招 聘 学位名称 广 告 分 别 建 立 本 体 论 文 档, 之 后 通 过 计 算 招 聘 广 告 本 体 和 简 本文在简历 信 息 抽 取 应 用 中 做 出 了 以 下 2 方 面 创 新 性 历本体之间 的 相 似 度 筛 选 出 合 格 的 求 职 者 [8] .C i r avegna 等 首先, 本文提出了 一 种 新 的 文 本 块 分 割 法. 此 分 割 法 基 算法通过归纳训练语料库中 被 XML 标 签 标 记 的 实 例 学 习 标 贡献. 于 行 的 位 置 信 息 和 文 本 块 内 信 息 集 成 关 联 的 特 点, 采 用 了 基 于神经网络的文本分类器与词向量.词向量能有效地解决 数 据稀疏问题, 并 能 从 语 法 和 语 义 中 对 规 律 和 模 式 进 行 归 纳. 行 类 别 分 类 器 和 行 标 签 分 类 器 通 过 对 简 历 行 的 协 调 性 分 类, 能有效地按预定义标签将简 历 分 割 成 文 本 块.5 种 文 本 分 类 器的 定 量 对 比, 确 定 了 At t en t i onBLSTM [ 1] 在简历行分类中 的优势, 同时 At t en t i onBLSTM 对长 句 和 短 句 分 类 表 现 出 了 良好的鲁棒性.与 3 种 已 经 发 表 的 简 历 解 析 器 的 定 量 对 比, 确立了 At t en t i onBLSTM 在文本块分割中的优势. 其次, 本文提出了 一 种 端 到 端 的 简 历 信 息 抽 取 管 道. 该 管道能够把文本块分割和简 历 具 体 信 息 识 别 结 合 起 来.4 种 采用 LP 2 算法 提 出 了 基 于 规 则 的 自 适 应 简 历 解 析 器 [9] . 该 记规则, 并通过训练 引 导 出 一 系 列 标 记 规 则 [9] . 浅 层 自 然 语 言处理被 用 来 对 词 序 列 规 律 进 行 归 纳 [9] .Zhang 等 提 出 了 “ 分割 - 识别 - 反馈 - 收 敛 - 输 出 ” 的 信 息 检 索 方 案, 并 为 中 华英才网开发 了 一 款 简 历 解 析 器 [10] . 该 系 统 把 文 本 块 分 割 模块、 信息识别模块 和 循 环 控 制 模 块 放 入 一 个 反 馈 回 路. 在 这个反馈回路的作用下, 当解析收敛相对稳定时, 所有的具 体 信息将被识别 [10] . 3 以神经网络为基础的简历信息抽取算法 3. 1 简历文本块分割 求职者通常按照传 统 规 则 排 列 文 本 块, 将 个 人 信 息 放 置 以神经网 络 为 基 础 的 序 列 标 注 分 类 器 的 对 比 评 估, 证 实 了 在文档的顶部, 之后是教育背景、 工作经历、 项目经历、 专 业 技 BLSTMGCNNs GCRF 能有效地进行命名实体识别. 能和文献发表.相关联的事实被分组在同一文本块.简 历 行 [ 2] 的位置信息和文本块中相关联的词表征为文本块分割提供 了 2 相关工作 重要线索.目前, 大多 数 主 流 简 历 解 析 器 在 预 处 理 阶 段 使 用 目前, 简历可被分为两类: 纯文本和结构化标记文 本. 针 对纯文本设计的信息抽取算法通常避免对结构化标记文本 进 Ti ka 等工具去除格式信息, 之后 在 纯 文 本 上 使 用 正 则 表 达 式 或自定义规则分割 简 历 [3G4] . 格 式 的 去 除 导 致 了 位 置 信 息 的 行泛化, 因为这类算法是基于词汇和语法的, 没有利用结构 化 丢失, 这些位置信息本应该提供额外的分类能力.另外, 正 则 的超语言元素.相反, 针 对 结 构 化 标 记 文 本 设 计 的 信 息 抽 取 表达式和自定义规则如果没有被优良设计, 会导致使用受 限. 算法不能 有 效 地 解 析 纯 文 本, 因 为 它 们 无 法 解 决 数 据 稀 疏 相 对 于 关 键 字 模 糊 匹 配, 深 度 学 习 算 法 具 备 更 好 的 鲁 棒 性 和 问题. 适应性.我们提出的基于神经网络的文本块分割法免除了 机 2. 1 纯文本简历的信息抽取 Yu 等提出了基于语义的级联混合模型 器学习对特征构造的要求. .首先, 他 们 使 [ 3] 基于以下 3 方面 原 因, 我 们 提 出 了 这 一 模 型.1) 神 经 网 用隐马尔可夫模型(Hi dden Ma r kov Mode l,HMM) 将 简 历 分 络提取的特征相比于传统手工特征能从文本中传递更多的 语 ( Suppo r tVe c t o rMa ch i ne, SVM) 从教育背景和个人信 息 中 提 到数据稀疏问题的影响.2) 词向量相比于手工特征能更 好 地 这个 算 法 提 出 了 一 种 新 的 语 法 特 征 Wr i t i ngS t l e, 来 为 简 历 y 仅需要根据下游的分类标签进行调参即可. 割 为 连 续 的 文 本 块, 然 后 分 别 使 用 HMM 和 支 持 向 量 机 取具体信息.Chen 等提出了两步法的 简 历 信 息 抽 取 算 法 . [ 4] 的句子建模. Wr i t i ngS t l e 按 照 句 子 的 构 成, 把 句 子 分 成 3 y 义信息, 例如背景信 息、 词 序 等; 神 经 网 络 提 取 的 特 征 较 少 受 表征词.3) 词向量 使 用 方 便. 文 本 分 类 器 作 用 于 它 们 之 后, 本项目提出的文本 块 分 割 法 训 练 两 种 行 分 类 器: 行 类 别 种类型: 简单、 键值对和复合体 [4] .简历应用这种语法特 征 后 分类器和行 标 签 分 类 器. 行 类 别 分 类 器 根 据 简 历 的 大 体 布 标注出具体信息.考虑 到 简 历 会 以 表 格 的 形 式 呈 现, PINTO 通常占据文档顶部, 通 常 包 含 页 码、 单 位 标 识、 章 节 标 题 和 通 会生成半结构化数据.文本分类器在生成的半结构化数据 中 局, 将简历划分为 4 个区域: 页眉、 内容、 元数据和页 脚. 页 眉 等借助条件随 机 场 模 型 ( Cond i t i onRandom F i e l d, CRF) 把 表 讯地址等.在简历中, 求 职 者 也 经 常 将 个 人 信 息 包 括 在 页 眉 .PROSPECT 是一款在线简历推荐系 统, 它 允 许 筛 选 人 文件创建日期/修改日期等.页脚占据文档底部, 通常包 括 页 PROSPECT 简历解析 器 由 3 部 分 构 成: 表 格 分 析 器、 简 历 分 标签分类器进一步完善.行标签分类器基于 6 种文本块 一 般 格行分类为 预 定 义 的 功 能 标 签, 例 如 表 格 头、 分 隔 符 和 数 据 行 [ 5] 员根据设 定 的 过 滤 条 件 或 关 键 字 组 合 快 速 定 位 候 选 人 . [ 6] 中.内容是简历的主体.元数据与文件信息相关, 包括 作 者、 码和推荐人等.行类别分类器对简历的大致分割被精细的 行
3. 9 7 祖石诚, 等: 基于新型文本块分割法的简历解析 类别: 个人信息、 教育 背 景、 工 作 经 历、 项 目 经 历、 专 业 技 能 和 学位名称、 职位名称、 编程技能和语言技能等.我们花费 了 很 文献发表.我们预期这两种分类器的协同分类会生成连续 的 多精力, 从各种渠道 收 集 了 命 名 实 体 标 准 字 典. 官 方 认 可 的 行标签簇.在每个行标签簇中, 所有行的标签相同, 为文 本 块 本科院校和研究生院名称、 官方授予的学位名称、 学校注册 登 分割提供了边界. 记 的 专 业 名 称 均 能 从 教 育 部 官 方 网 站 获 得; 地 名 辞 典 由 民 政 为了以合适的格式 将 训 练 集 放 入 神 经 网 络 分 类 器 中, 我 局定期更新; 工商局对企业的官方名称进行定期维护; 而招 聘 们需要把简历文本的行列表映射为词向量集合.为了实现 这 职位名称和专业技能则可以从第三方招聘平台获取.这些 收 一目的, 我们首先基于简历语料库训 练 词 嵌 入. 首 先 把 5000 集的命名实体特征以 BIO 标注 格 式 来 训 练 序 列 标 注 分 类 器. 标点为空格统一了标点符号.收集到 的 行 总 数 为 75000. 我 概率分布.为 了 将 识 别 出 来 的 命 名 实 体 与 标 准 维 度 名 称 对 接 作 用 于 行 语 料 库 训 练 词 嵌 入, 词 嵌 入 的 参 数 会 在 训 练 中 被 实体间的余弦相似度, 并据此对命名实体做聚类处理. 份 简 历 的 行 列 表 以 连 结 的 形 式 聚 集 起 来, 然 后 通 过 替 换 各 种 们将 gens im 工具 包 中 的 Wo r d2Ve c [ 11] 模型作为默认模型直 调节.将词嵌入的 维 数 设 置 为 300, 生 成 的 词 嵌 入 以 . b i n 格 式保存.我们循环地 从 每 一 行 中 分 离 出 行 类 别、 行 标 签 和 行 内容.在去除停用词 后, 行 片 段 的 每 一 个 词 被 标 记 解 析. 通 过在词嵌入 W wr d ∈R R d W | V | 查 询 词 汇 索 引 v , 每 个 词 被 转 换 为 i 分 类 器 结 束 训 练 时, 按 照 标 签 类 别 它 对 一 句 话 中 的 短 语 计 算 应, 我们采用 k Gme ans 算 法 根 据 文 档 频 率 ( TFIDF) 计 算 命 名 在本项目中, 我们根 据 命 名 实 体 识 别 性 能 和 解 码 速 度 对 [ ] 比了以下 4 种主流的 序 列 标 记 分 类 器, 即 B i GLSTMGCRF 16 , [ ] [ ] [ ] B i GGRUGCRF 17 , IDCNNGCRF 18 和 BLSTMGCNNs GCRF 2 . 1) B i GLSTMGCRF.这种模型把双向长短期记忆网 络( B i G v , i 的 值 取 在 0 到 | V |-1 之 间. 句 d i r e c t i ona lLongSho r t GTe rm Memo r B i GLSTM) 和 条 件 随 机 y, T 的值取句 子 的 长 度. 将 各 种 文 本 分 类 器 作 用 于 词 向 量 集 集合后, 与额外 的 特 征 连 结, 连 结 得 到 的 向 量 作 为 B i GSLTM 对应的词向量 e i = W wr d i 子层面的词向量被表示为 词 向 量 集 合 emb s = { e 1 , e 2 ,?, e T }, 合, 根据预定义标签 训 练 文 本 分 类 器. 我 们 考 虑 以 下 5 种 文 本分类器. 1) Tex t GCNN.为了分 类 简 历 行, Tex t GCNN 的 卷 积 层 作 用于词向量集 合 的 训 练 模 型 参 数 [12] . 模 型 的 词 向 量 参 数 保 场模型结合起来, 形成 B i GLSTMGCRF.词序列转换为 词 向 量 的起始输入.正反方 向 上 的 隐 藏 层 输 出 被 连 结, 通 过 映 射 为 每个序列标签计算概率分布.最后, 由 CRF 层缓 解 数 据 稀 疏 问题. 2) B i GGRUGCRF.在这种模型中, 双向门 控 循 环 单 元( B i G 持不变, 模型根据预定义类别通过反向传播 调 参.Tex t GCNN d i r e c t i ona lGa t edRe cu r r en tUn i t, B i GGRU) 将词向量和文本特 征图谱中找出最具分辨力的特征 [12] . 被放入 CRF 层对标签序列进行联合解码. 使 用 固 定 大 小 的 滑 动 窗 口 捕 获 背 景 特 征, 最 大 池 化 层 能 在 特 2) RCNN.当学 习 词 表 征 时, 相 比 于 CNN, RCNN 使 用 双向 循 环 结 构 捕 获 更 多 的 背 景 信 息 [13] .RCNN 也 保 留 了 征作为输入.堆叠的 B i GGRU 与 CRF 结 合.B i GGRU 的 输 出 3) IDCNNGCRF.CNN 因 其 固 定 大 小 的 滑 动 窗 口, 对 背 景信 息 表 征 有 一 定 限 制. 迭 代 扩 张 卷 积 ( I t e r a t ed Di l a t ed CNN 最大池化 层 的 分 辨 力, 即 在 一 个 文 本 中 找 出 关 键 的 特 Convo l u t i ons, IDGCNNs) 通过 堆 叠 扩 张 卷 积 层 可 以 解 决 这 一 3) Adve r s a r i a lLSTM.对抗训练被证实 是 有 效 的 正 则 化 能在不 损 失 分 辨 率 的 前 提 下 概 括 全 局 背 景 信 息. 传 统 的 征 . [ 13] 策略 .Adve r s a r i a lLSTM 在词嵌入中加入了 干 扰, 不 仅 能 [ 14] 提高模 型 对 过 拟 合 的 鲁 棒 性, 也 能 提 高 原 始 词 嵌 入 的 质 量 . [ 14] 4) At t en t i onBLSTM.单方向 LSTM 仅以从左到 右 的 方 问题.扩张卷积层中的扩张宽度呈指数增长.这些扩张 卷 积 CNN 卷积转化相邻的输入, 而扩张卷 积 通 过 每 次 跳 过 δ 个 输 入 转 化 更 为 宽 泛 的 输 入, δ 为 扩 张 宽 度. 除 此 之 外, IDCNNG CRF 允许卷积运算在整个文档中以并行模式计算. 4)BLSTMGCNNs GCRF.BLSTMGCNNs GCRF 是 一 种 端 式处理词序列, 双向 LSTM 通过引入反向 LSTM 弥补了这一 到端的序列标记神经网络模型, 除了词向量, 不需要额外构 建 缺点.对于每个词来 说, 两 个 隐 藏 层 以 相 反 方 向 流 动 生 成 一 特征或进行数据预处理.该模型充分利用了词表征和字符 表 个连结的隐藏层.此模型能学习过去和未来的背景信 息. 除 征, 这些表征向量被放入 B i GLSTM 中对每个词的背景 信 息 进 此之外, 模型还引入了一个注意机制, 即在一句话中找出对 文 本分类起决定性的关键词. 5) Tr ans f o rme r.Tr ans f o rme r 是一 个 连 接 编 码 器 和 解 码 器的序 列 转 导 模 型 . 该 模 型 通 过 多 头 注 意 机 制 (Mu l t i G [ 15] He adAt t en t i on Me chan i sm) 在 输 入 和 输 出 之 间 获 取 全 局 依 赖.自身注意机制将 一 个 序 列 的 不 同 位 置 关 联, 用 以 计 算 句 子表征.在两个任意的输入和输出之间传递信号所需的运 算 量是一个常量, 允许并行计算. 3. 2 简历信息识别 3. 2. 1 文本序列标记 行类别分类器和行标签分类器对简历行的协同分类确 立 了文本块间的边界.接下来的任务就是利用命名实体从每 个 文本块中识别获取具体信息.命名实体识别在每句话的短 语 中标注出命名实体的键, 例如家庭住址、 毕业院校、 专业 名 称、 行建模. 3. 2. 2 文本特征 B i GLSTMGCRF, B i GGRUGCRF 和 IDCNNGCRF 除 了 使 用 词向量, 还能使用文 本 特 征 作 为 模 型 输 入. 文 本 特 征 捕 获 词 本身的变化.本项目抽取各种文本特征作为词向量的补充 识 别命名实体.我们使用的文本特征如下: 1) 以大写字母开头; 2) 所有字母均为大写; 3) 包含不是首字母大写的大写字母; 4) 以数字开头; 5) 所有的字符都为数字; 6) 混合字母和数字; 7) 是否包含标点; 8) 是否包含符号;
4. Compu t e rSc i enc e 计算机科学 Vo l. 47, No. 6A, June2020 9 8 9) 是否包含省略符号; 10) 是否包含首字母缩写. 我们为命名实体识别提取了 3 万的文本特征.在训 练 序 1. f o re a chl i ne∈l i ne sdo 2. dol i net l a s s i f i c a t i on ypec 3. dol i nel abe lc l a s s i f i c a t i on 列标记模型过程中, 我们处理文本特征的方式与词向量相 同. 4. endf o r 因此, 神经网络的输入包括词向 量 和 文 本 特 征. Huang 等 [16] 6. dol i nel abe lc l us t e r s 报 道, 直 接 将 词 的 拼 写 特 征 或 背 景 特 征 与 输 出 层 相 连 不 仅 能 5. f o re a chl i ne∈l i ne sdo 7. endf o r 提升模型训练的效 率, 而 且 不 会 降 低 模 型 的 标 注 精 确 率. 本 8. r e c o r da l lt ex tb l ocks 项目也利用了这一技术将文本特征与 CRF 输出 层 直 接 相 连, 10. 避免了潜在的特征 冲 突. 图 1 通 过 一 个 实 例 说 明 这 一 技 术. 输入的词序 列 是 “ Pr og r amme r sus ePy t hona tGoog l e”, 在 这 里“ Pr og r amme r s”“ Py t hon” 和 “ Goog l e” 是 3 个 待 识 别 的 命 名 实体.我们使用标准的 BIO 格 式 注 解 命 名 实 体 识 别, 其 中 B 代表 开 始, I 表 示 内 部, O 表 示 其 他. 与 词 向 量 放 入 LSTM/ GRU 层( 实心箭头) 不 同 的 是, 文 本 特 征 与 CRF 输 出 层 直 接 相连( 虚线弯曲箭头). 9. f o re a chb l ock∈b l ocksdo ma t cht henameden t i t i e sa t t r i bu t e s 11. i fma t cht hen 13. endi f 12. s avet henameden t i t i e s 14. endf o r 图 2 简历解析算法的伪代码 F i 2 Ps eudo c odef o rr e sumepa r s i nga l r i t hm g. go 3. 4 简历信息抽取系统 基于提出 的 简 历 信 息 抽 取 算 法, 我 们 开 发 了 一 款 基 于 Dj ango 框架的简 历 信 息 抽 取 系 统. 该 系 统 运 行 在 我 们 的 数 据中心, 用作简历收集和数据分析.目前为止, 我们实现 的 功 能有: 简历信息抽取、 标准格式简历下载和简历过滤.我 们 使 用 MySQLCl us t e r s 存储结构化数据, 例如用户的操作记录和 简历上传的时间戳等.简历爬虫工具负责从指定的网站收 集 简历.爬虫工具将收集的 简 历 存 储 于 HDFS 文 件 系 统, 简 历 的文件信 息 以 简 历 IDs 为 索 引 存 储 于 MySQL Cl us t e r s. 当 用户发起简历解析请求时, 应用服务器将询问的简历 ID 发送 图 1 文本特征与输出层直接相连 F i 1 Tex tf e a t ur e sd i r e c t l onne c t edt oCRFl aye r g. yc 3. 3 简历信息抽取算法 通过综合文本块分 割 与 简 历 具 体 信 息 识 别, 我 们 为 简 历 信息提取提出一个整合方案.假设我们从第三方招聘网站 获 取了一份 简 历, 首 先 使 用 pd fmi ne r 或 do cx 工 具 通 过 去 格 式 化将它转换为纯文本; 然后对简历文本进行数据清洗, 例如 统 一标点符号、 去除停用词和低频词等; 之后把简历文本的每 一 行 放 入 行 列 表, 循 环 地 将 行 列 表 中 的 每 一 行 转 换 为 词 向 量 集 给 MySQLCl us t e r s.如果 MySQLCl us t e r s 存有 该 简 历 之 前 的解析结果, 应用服务器会向 Mongo 数据库请 求 之 前 的 解 析 数据.每 份 简 历 的 解 析 结 果 以 键 值 对 的 文 档 格 式 存 储 于 Mongo 数 据 库, 因 为 每 份 简 历 解 析 得 到 的 特 征 名 称 均 不 相 同.如果 MySQLCl us t e r s 没有该简历的解析数据,HDFS 文 件 系 统 会 返 回 询 问 的 简 历 文 件, 系 统 使 用 简 历 信 息 抽 取 算 法 解 析简历, 并将结果存储于 Mongo 数据库.我们使用 Luc ene 工具为每 份 简 历 做 全 文 索 引, 方 便 简 历 过 滤.Do cx 模 板 和 HTML 模板类似, 经过定义后可用来 渲 染 标 准 格 式 简 历. 图 3 展示了该简历信息抽取系统的系统组网. 合.我们标记每一行 中 的 词, 通 过 查 询 它 在 词 嵌 入 中 的 词 汇 索引, 将其转换为对 应 的 词 向 量. 对 于 行 类 别 分 类 器 和 行 标 签 分 类 器 而 言, 这 两 种 分 类 器 的 输 入 除 了 词 向 量 以 外 不 需 要 构造额外特征.行类 别 分 类 器 把 每 一 行 归 为 4 种 大 致 布 局. 行标 签 分 类 器 进 一 步 完 善 这 一 大 致 分 类, 把 每 一 行 归 为 6 种 一般信息类别.这种级联分类会生成连续的行簇.在每 个 行 簇中, 所有行共享同 一 标 签, 为 文 本 块 间 提 供 了 边 界. 最 终, 我们将一份简历按预定义标签分割成了文本块.对于简历 具 体 信 息 的 抽 取, 我 们 迭 代 地 将 序 列 标 注 分 类 器 应 用 于 文 本 块 的词向量集合和抽取的文本特征.序列标注分类器将检出 它 们能够识别的命名实体.为了将检出的命名实体与标准维 度 名称对 应, 我 们 使 用 k Gme ans 算 法 计 算 命 名 实 体 间 的 TFIDF 余弦相似度做维度 聚 合. 之 后, 簇 中 的 每 个 命 名 实 体 被 分 配 一个标准的维度名 称. 此 时, 我 们 把 具 体 的 简 历 信 息 解 析 为 结构化数据.最后, 我 们 把 识 别 出 的 命 名 实 体 以 键 值 对 形 式 转换为 XML 文件, 用 作 前 端 渲 染 或 数 据 库 存 储. 图 2 给 出 了该简历解析算法的伪代码. 图 3 简历解析的系统组网 F i 3 Sys t ema r ch i t e c t ur eo ft her e sumepa r s e r g. 4 实验方法 为了训练所提 行 分 类 器, 我 们 收 集 了 5000 份 简 历 作 为 数据集.为了获取这 些 个 人 数 据, 我 们 开 发 的 爬 虫 工 具 从 各 种第三方招聘平台 上 获 取 简 历. 简 历 涵 盖 不 同 的 行 业, 其 中 4000 份是 PDF 格式简历, 其 他 1000 份 为 Wo r ds 格 式 简 历.
5. 9 9 祖石诚, 等: 基于新型文本块分割法的简历解析 首先使用 pd fmi ne r 和 do cx 工具分别将 PDF 和 DOCX 格式的 简历转换为纯文本, 然 后 对 简 历 文 本 做 数 据 清 洗. 生 成 的 文 本简历会去除所有可视化格式或布局. 为了生成以正确格 式 放 入 神 经 网 络 的 数 据 集, 我 们 开 发 献发表的分类中观察到.如图 6 所示, 在对工作经历分 类 时, At t en t i onBLSTM 取得的召回率和 F G 1 值为 0. 80 和 0. 82, 而 Tex t GCNN 取得的召回 率 和 F G 1 值 为 0. 70 和 0. 73. 在 对 项 目经历分类时, At t en t i onBLSTM 取 得 的 召 回 率 和 F G 1 值为 了一款行注释工具, 如 图 4 所 示. 这 款 工 具 为 简 历 文 本 中 的 0. 81 和 0. 83, 而 Tex t GCNN 取 得 的 召 回 率 和 F G 1 值 为 0. 71 注释工具将 行 注 释 结 果 保 存 为 文 本 文 件. 每 一 行 包 含 行 类 能大致相同.相对于自然段而言, 行的长度偏中等或较 短, 不 每一行注释两个预 定 义 类 别, 一 个 行 类 别 和 一 个 行 标 签. 行 别、 行标签和行内容, 之间以空格隔开.我们将 3/4 的 数 据 集 用作训练集, 1/4 的 数 据 集 用 作 测 试 集. 考 虑 到 验 证 集 的 设 立, 我们在训练集上取 1/4 数据做交叉验证. 和 0. 74.At t en t i onBLSTM 和 Adve r s a r i a lBLSTM 的分类性 需要从词序列的过去和未来状态中提取背景信息.2) 对 于 短 句, 例如联系方式, Tex t GCNN 的分类 表 现 好 于 其 他 文 本 分 类 器, 因为这些详细的个人信息是相互独立存 在 的.Tex t GCNN 使 用 滑 动 窗 口 学 习 词 的 字 符 表 征, 能 使 它 更 好 地 捕 获 短 语 的 语 义 信 息. 如 图 6 所 示, Tex t GCNN 对 个 人 信 息 分 类 所 取 得 的召回 率 和 F G 1 值 为 0. 84 和 0. 88, 而 At t en t i onBLSTM 取 得的召回率和 F G 1 值为 0. 82 和 0. 86.3) RCNN 对 长 句 的 分 类性能好于 Tex t GCNN, 因为 RCNN 使用了周期性结构, 相比 于固定大小的滑动窗口能捕获更为广泛的背景信息.值得 注 意的是, RCNN 的 周 期 性 结 构 不 依 赖 于 固 定 大 小 的 滑 动 窗 口.Tr ans f o rme r 的分类性能中等, 我们推测可能是对被权 重 图 4 简历行标注工具 F i 4 Re sumel i neanno t a t i ont oo l g. 在自 然 语 言 学 习 应 用 中, 精 确 度 ( Pr e c i s i on) 和 召 回 率 化的注意力位置进行平均化 导 致 了 分 辨 率 的 降 低. 鉴 于 At G t en t i onBLSTM 能对长 句 和 短 句 展 现 出 良 好 的 分 类 鲁 棒 性, 我们决定 在 生 产 环 境 中 使 用 At t en t i onBLSTM 对 文 本 块 进 行分割. ( Re c a l l) 是评估分类器性能的常用指标.在命名实体识别中, 精确度定义为 所 有 命 名 实 体 被 文 本 分 类 器 正 确 识 别 的 百 分 比: Pr e c i s i on = TP /( TP + NP ).召回 率 即 灵 敏 度, 是 指 分 类 器 能 够 取 得 的 命 名 实 体 正 确 分 类 的 百 分 比: Re ca l l = TP / ( TP + FN ).这两个评 价 指 标 分 别 代 表 了 完 整 度 和 正 确 率. F G 1 值是精确度和召回率的调和平均数. 5 实验结果 5. 1 简历文本块分类评估 考虑到行类别分类, 从整体来看, 简历的 4 种大致布 局 能 被我们提出的 5 种文本分类器以较高精确度区分.图 5 是 根 图 6 基于 5 种文本分类器的行标签分类 F i 6 L i nel abe lc l a s s i f i c a t i onba s edon5t ex tc l a s s i f i e r s g. 5. 2 简历具体信息识别评估 表 2 比较性地评估了 4 种序列标记分类器对简历具 体 信 据行类别分类对这 5 种文本分类器做的对比评估.这 5 种 分 息的识别性能.在对 个 人 具 体 信 息 进 行 抽 取 时, 人 名 有 特 殊 在简历上占据了不同的位置.我们注意到这 5 种分类器 对 内 较高的 F G 1 值.考虑到 家 庭 住 址, 我 们 通 常 按 照 习 惯 把 详 细 这 可 能 是 由 于 一 部 分 求 职 者 使 用 页 眉 来 展 示 个 人 信 息, 导 致 化解释了它偏低的 F G 1 值.电话号码和邮箱地址 有 其 独 特 的 类器 整 体 上 取 得 了 较 高 的 分 类 精 确 率, 因 为 这 4 种 大 致 布 局 的拼写格式, 名和姓 的 首 字 母 为 大 写. 这 一 特 征 也 解 释 了 它 容的分类取得的召 回 率 和 F G 1 值 相 对 于 其 他 3 种 类 别 偏 低, 地址写在前面, 把邮 政 编 码 写 在 最 后. 长 句 中 蕴 含 的 更 多 变 那些本应该属于简历内容中的行被错误地划分到页眉中. 书写格式; 电话号码包含固定数量的数字, 通常将区号放在 括 号内; 我 们 书 写 邮 箱 地 址 时 通 常 先 写 用 户 名, 之 后 是 符 号 “@ ”, 最后是域名.这 些 格 式 限 制 解 释 了 这 两 个 字 段 较 高 的 F G 1 值.学校名称 和 学 位 名 称 在 命 名 实 体 字 典 中 比 较 固 定, 有较高的 F G 1 值.然而, 这 两 个 字 段 的 书 写 格 式 存 在 较 多 的 变化.一些求职者常 使 用 首 字 母 缩 写 指 代 他 们 的 母 校 名 称, 而 命 名 实 体 字 典 中 不 包 含 学 校 名 称 的 首 字 母 缩 写, 导 致 它 们 中的一些被分类器 漏 掉. 同 理, 一 些 求 职 者 常 常 使 用 首 字 母 图 5 基于 5 种文本分类器的行类别分类 F i 5 L i net l a s s i f i c a t i onba s edon5t ex tc l a s s i f i e r s g. ypec 对于 6 种一般信息 类 别 的 行 标 签 分 类, 图 6 展 示 了 基 于 5 种文本分类器做的比较性 分 析.我 们 针 对 这 5 种 文 本 分 类 缩写指代学位名称.相 对 于 学 校 名 称, 专 业 名 称 的 F G 1 值有 所降低, 因为不同学校使用不同名称表示同一专业.在 中 国, 本科院校经常 交 替 使 用 生 物 科 学 和 生 物 技 术 来 指 代 生 物 学 科.毕业日 期 因 变 化 较 大, F G 1 值 有 所 降 低, 如 2010 G 05 G 19, 器总 结 了 3 点 结 论.1)At t en t i on BLSTM 和 Adve r s a r i a l 05/19/2010 和 2010/05/19 等. 对 于 公 司 名 称, 大 多 数 求 职 本分类器.这个结论 能 从 分 类 器 对 工 作 经 历、 项 目 经 历 和 文 种 情 况 下, 单 位 名 称 能 以 较 高 的 相 似 度 在 命 名 实 体 字 典 中 被 BLSTM 在 分 类 长 句 时 所 取 得 的 召 回 率 和 F G 1 值高于其他文 者以全称列举他们 的 前 雇 主, 以 便 在 网 上 做 交 叉 引 用. 在 这
6. Compu t e rSc i enc e 计算机科学 Vo l. 47, No. 6A, June2020 1 0 0 检出.职位名称很难 被 识 别, 因 为 它 们 很 大 程 度 上 取 决 于 雇 主的需求.不同的雇 主 会 使 用 不 同 的 名 称 表 示 同 一 职 位, 这 一现象不利于命名实体的识别.职位描述相对于职位名称 有 较高的 F G 1 值, 因为职位描述由连续的长句组成, 这 些 长 句 包 含了技术细节, 例如 符 号 和 数 字 等. 这 些 格 式 特 征 促 进 了 职 位描述的分类.职位描述分类唯一的难点是对职位描述的 开 头和结尾进行确定.工 作 周 期 的 F G 1 值 较 低, 这 与 毕 业 日 期 类似.项目经历和工 作 经 历 共 享 同 一 种 书 写 格 式. 因 此, 项 目名称、 项目描述和项目周期的 F G 1 值分别与职 位 名 称、 职 位 描述和工作周期的 F G 1 值类似.语言能力和计算 机 技 能 与 学 校名称类似, 因为它们在命名实体字典中是固定不变的, 因 此 它们的 F G 1 值相对较 高. 对 于 文 献 发 表 而 言, 它 有 独 特 的 书 写格式.学者通常使用哈佛或温哥华格式来书写它们的参 考 书目.书写习惯常常是作者、 发表日期、 文章标题、 期刊 名 称、 卷号和页码.这一正则表达式也解释了它较高的 F G 1 值. 表 2 简历具体信息字段识别的 F G 1 值 Tab l e2 F G 1me a sur e so fr e sumespe c i f i ci n f o rma t i onf i e l d r e c ogn i t i on F i e l d Name Add r e s s Phone Ema i l Un i ve r s i t y Gr adSchoo l Gr adDa t e Ma o r j Deg r e e Company J obTi t l e J obDe s c J obpe r i od Pr o e c tt i t l e j Pr o e c tDe s c j Pr o e c tpe r i od j Language Compu t e rSk i l l Re f e r enc e s Avg. Spe ed B i GLSTMG CRF B i GGRUG CRF IDCNNG CRF BLSTMG CNNs GCRF 0. 844 0. 845 0. 847 0. 850 0. 937 0. 967 0. 963 0. 906 0. 904 0. 821 0. 851 0. 898 0. 873 0. 843 0. 872 0. 820 0. 842 0. 873 0. 818 0. 908 0. 902 0. 848 0. 878 1. 13× 0. 939 0. 969 0. 965 0. 908 0. 907 0. 823 0. 855 0. 901 0. 875 0. 844 0. 873 0. 821 0. 843 0. 873 0. 820 0. 910 0. 903 0. 850 0. 880 1. 30× 0. 942 0. 971 0. 968 0. 912 0. 910 0. 828 0. 862 0. 906 0. 881 0. 850 0. 880 0. 826 0. 848 0. 881 0. 824 0. 911 0. 906 0. 852 0. 885 1. 70× 0. 945 0. 975 0. 971 0. 916 0. 915 0. 835 0. 866 0. 911 较高的 F G 1 值, 因为 PROSPECT 是 专 门 针 对 IT 行 业 人 员 开 发 的 简 历 推 荐 系 统, 其 有 限 的 专 业 名 称 和 学 历 名 称 选 择 促 使 了其较高的精确度和召回率. 表 3 4 种简历解析器文本块分类的 F G 1 值 Tab l e3 F G 1me a sur e sf o rc l a s s i f i ngt ex tb l o cksby4pa r s e r s y Tex tb l ock PROSPECT Pe r s ona l Educ a t i on Wo rk 结束语 CHM Wr i t i ng GS t l e y OurMe t hod 0. 730 0. 792 0. 841 - 0. 804 0. 785 - 0. 921 0. 823 0. 789 0. 862 0. 820 我们系统地研究了在简历信息抽取中应用自 然 语 言 处 理 最 前 沿 的 技 术, 本 项 目 针 对 简 历 信 息 抽 取 提 出 了 一 种 端 到 端 的 基 于 词 向 量 和 神 经 网 络 文 本 分 类 器 的 管 道; 同 时 提 出 了 一 种 新 的 文 本 块 分 割 法, 该 分 割 法 基 于 简 历 行 的 位 置 信息, 利用了每个文 本 块 内 容 集 成 连 贯 的 性 质. 我 们 期 望 基 于背景的迭代行分类能进一步优化独立的行分类.对于简 历 具体 信 息 的 提 取, 我 们 定 量 地 比 较 了 4 种 序 列 标 记 分 类 器 的 性能.实验结果显示 BLSTMGCNNs GCRF 能有效地识别命名 实体.与 3 种已经发表的简历解析器的对比评估验证了 我 们 提出的文本块分割法具有良好的分类性能.未来工作包括 引 入 本 体 论 进 一 步 丰 富 我 们 现 有 的 简 历 解 析 器 功 能, 通 过 为 每 位 求 职 者 建 立 本 体 侧 写, 我 们 期 望 能 建 立 一 款 智 能 的 简 历 推 荐系统. 致谢 感谢博士后站工作人员为本项目命名实体字典 收 集 了 大 量 资 料; 感 谢 王 修 来 博 士 对 本 项 目 系 统 开 发 的 支 持 与 指导. 0. 888 参 考 文 献 0. 882 [ 1] ZHOU P, SHI W, TIANJ, e ta l.At t en t i on GBa s edB i d i r e c t i ona l 0. 853 0. 832 0. 851 0. 883 0. 830 0. 913 0. 910 0. 860 0. 889 1× 针对解码 速 度, 我 们 将 BLSTMGCNNs GCRF 的 解 码 速 度 设为基线, 然后将各种分类器的解码速度与其做比较, 结果 发 现 IDCNNGCRF 的解码速度 最 快. 当 进 行 序 列 标 记 时, LSTG Ms 在长度为 N 的句子上的计算复杂度为 O( N ).对于 IDCG [ ] NNGCRF 18 而言, 固定长度 的 迭 代 扩 张 卷 积 生 成 的 标 记 概 率 允许分类在文档中并行计算. 5. 3 对比 4 种简历解析器 本节对比我们提出的文本块分割法和其他 3 种已经发 表 的 简 历 解 析 器 在 对 个 人 信 息、 教 育 背 景 和 工 作 经 历 进 行 分 割 时的性能.参考文献仅 提 供 了 这 3 种 文 本 块 分 类 的 F G 1 值. 这 3 种发 表 的 简 历 解 析 器 是 PROSPECT, CHM 和 Wr i t i ng G S t l e.表 3 列出了基于这 4 种简历解析器对 3 种文本块进行 y 分类的 F G 1 值.总体上 来 看, 我 们 提 出 的 文 本 块 分 割 法 优 于 Wr i t i ng GS t l e 和 CHM.我们的 文 本 块 分 割 法 基 于 行 的 位 置 y 信息和文本块内容凝聚一致的特点使得其取得了其优越的 分 类性能.唯一的例外是, PROSPECT 对教育 背 景 分 类 取 得 了 LongSho r t GTe rm Memo r two rksf o rRe l a t i onC l a s s i f i c a t i on yNe [ C]∥Pr o c e ed i ngso ft he54 t h Annua lMe e t i ngo ft heAs s o c i a G t i onf o rCompu t a t i ona lL i ngu i s t i c s. Be r l i n, Ge rmany, 2016. [ 2] MA XZ, HOVY E. End G t o GEndSequenc eLabe l i ngv i aB i G d i r e c G t i ona lLSTMGCNNs GCRF [ C]∥Pr o c e ed i ngso ft he54 t hAnnua l Me e t i ngo ft heAs s o c i a t i onf o rCompu t a t i ona lL i ngu i s t i c s. Be r G l i n, Ge rmany, 2016: 7 G 12. [ 3] YU K, GUAN G, ZHOU M. Re sumeI n f o rma t i on Ex t r a c t i on wi t hCa s c adedHybr i dMode l[ C]∥Pr o c e ed i ngso ft he43r dAn G nua lMe e t i ngo ft heAs s o c i a t i onf o rCompu t a t i ona lL i ngu i s t i c s. Un i ve r s i t fMi ch i USA, 2005: 25 G 30. yo gan, [ 4] CHENJ, ZHANGCX, NIUZD. ATwo GS t epRe sumeI n f o rma G t i onEx t r a c t i onAl r i t hm [ J].Ma t hema t i c a lPr ob l emsi nEng i G go ne e r i ng. 2018, 2018: 1 G 8. [ 5] PINTO D,MCCALLUM A,WEI X, e ta l. Tab l e Ex t r a c t i on Us i ngCond i t i ona lRandom F i e l d[ C]∥Pr o c e ed i ngso ft he26 t h Annua lI n t e r na t i ona lACM S IGIR Con f e r enc eon Re s e a r chand Deve l opmen ti nI n f o rma t i onRe t r i eva l. 2003: 235 G 242. [ 6] S INGH A, ROSE C,VI SWESWARIAH K, e ta l. PROSPECT: As t emf o rs c r e en i ngc and i da t e sf o rr e c r u i tmen t[ C]∥Pr o G ys c e ed i ngso ft he19 t hACMI n t e r na t i ona lCon f e r enc eonI n f o rma G t i onandKnowl edgeManagemen t. To r on t o, ON, Canada, 2010. [ 7] J IX W, ZENGJP, ZHANG S Y, e ta l.Tagt r e et emp l a t ef o r Webi n f o rma t i onands chemaex t r a c t i on [ J].Expe r tSys t ems
7. 1 0 1 祖石诚, 等: 基于新型文本块分割法的简历解析 wi t hApp l i c a t i ons, 2010, 37( 12): 8492 G 8498. t a t i ons. Pa l a i sd e sCong r è sNe t un e, T ou l on, Fr a n c e, 2017: 24 G 26. p [ 8] SENTHILKUMARAN V, SANKARA. Towa r dsanau t oma t ed [ 15] VASWANIA, SHAZEER N, PARMAR N, e ta l.At t en t i onI s s i ngon t o l ogymapp i ng ( EXPERT)[ J]. I n t e r na t i ona lJ our na lo f r a lI n f o rma t i on Pr o c e s s i ng Sys t ems.Long Be a ch,CA,USA, [ 9] CIRAVEGNAF.( LP) 2, anAdap t i veAl r i t hmf o rI n f o rma t i on go [ 16] HUANGZ H, XU W, YU K. B i d i r e c t i ona lLSTMGCRF Mode l s CAI G 2001 Wo rkshoponAdap t i veTex tEx t r a c t i onand Mi n i ng. [ 17]J IAO Z Y, SUN S Q, SUN K. Ch i ne s e Lex i c a l Ana l i s wi t h ys s t emf o ri n t e l l i ts c r e en i ngo fc and i da t e sf o rr e c r u i tmen tu G ys gen Me t ada t a, Seman t i c sandOn t o l og i e s, 2013, 8( 1): 56 G 64. Ex t r a c t i onf r om Web G r e l a t edTex t s[ C]∥Pr o c e ed i ngso ft heI J G Se a t t l e,WA, 2001. [ 10]ZHANG C,WU M, LIC G, e ta l.Re sumePa r s e r: Semi G s t r uc G t ur edCh i ne s edo cumen tana l i s[ C]∥Pr o c e ed i ngso ft he2009 ys WRIWo r l dCong r e s sonCompu t e rSc i enc eandI n f o rma t i onEn G i ne e r i ng. Lo sAnge l e s, USA, 2009: 12 G 16. g [ 11] MIKOLOV T, CHEN K, CORRADO G, e ta l. Ef f i c i en tEs t ima G t i ono fWo r dRep r e s en t a t i onsi nVe c t o rSpa c e[ C]∥Pr o c e ed i ngs o ft he1s tI n t e r na t i ona l Con f e r enc e on Le a r n i ng Rep r e s en t a G t i ons. Sc o t t s da l e, Ar i z ona, USA, 2013. [ 12]KIM Y. Convo l u t i ona lNeur a lNe two rksf o rSen t enc eC l a s s i f i c a G t i on [C]∥Pr o c e ed i ngso ft he2014 Con f e r enc eon Emp i r i c a l Me t hodsi n Na t ur a lLanguagePr o c e s s i ng.Doha,Qa t a r, 2014: 25 G 29. [ 13]LAIS W, XU L H, LIU K, e ta l. Re cur r en tConvo l u t i ona lNeu G r a lNe two rksf o rTex tC l a s s i f i c a t i on [ C]∥Pr o c e ed i ngso ft he 29 t hCon f e r enc eo ft heAs s o c i a t i onf o rt heAdvanc e Gmen to fAr G t i f i c i a lI n t e l l i e. Aus t i n, Texa s, USA, 2015. genc [ 14] MIYATOT, DAIA M, GOODFELLOWI. Adve r s a r i a lTr a i n i ng Me t hodsf o rSemi GSupe r v i s edTex tC l a s s i f i c a t i on [ C]∥Pr o c e ed G Al lYouNe ed [ C]∥Pr o c e ed i ngso ft he31s tCon f e r enc eonNeu G 2017. f o rSequenc eTagg i ng [ J]. a rXi v: 1508. 01991v1. De epB i GGRUGCRF Ne two rk [ J]. a rXi v: 1807. 01882. [ 18]STRUBELLE, VERGA P, BELANGER D, e ta l. Fa s tand Ac G cur a t e En t i t c ogn i t i on wi t hI t e r a t ed Di l a t ed Convo l u t i ons y Re [ C]∥Pr o c e ed i ngso ft he2017Con f e r enc eonEmp i r i c a lMe t hods i nNa t ur a lLanguagePr o c e s s i ng. Copenhagen, Denma rk, 2017: 9 G 11. [ 19]DONG C H, ZHANG JJ, ZONG C Q, e ta l. Cha r a c t e r GBa s ed LSTMGCRF wi t h Rad i c a l GLeve l Fe a t ur e sf o r Ch i ne s e Named En t i t c ogn i t i on [ C]∥I n t e r na t i ona lCon f e r enc eonCompu t e r yRe Pr o c e s s i ngo fOr i en t a lLanguage s. Sp r i nge rI n t e r na t i ona lPub G l i sh i ng, 2016: 239 G 250. [ 20]DEVLINJ, CHANG M W, LEE K, e ta l. BERT: Pr e G t r a i n i ngo f De ep B i d i r e c t i ona l Tr ans f o rme r sf o r Language Unde r s t and i ng [ J]. a rXi v: 1810. 04805. ZU Sh i G ch eng ,bo r ni n 1988, s t r a G po g dua t e, Ph. D.Hi sma i nr e s e a r chi n t e r e s t s i nc l udema ch i nel e a r n i ng, de epl e a r n i ng andna t u r a ll anguagep r o c e s s i ng. i ngso ft he5 t hI n t e r na t i ona lCon f e r enc eonLe a r n i ngRep r e s enG ( 上接第 88 页) [ 10] WOLPERT D H,MACREADY W G. NoFr e eLunchTheo r ems f o rSe a r ch[ J]. IEEE Tr ans a c t i ononEvo l u t i ona r t a t i on, yCompu 1997, 1( 1): 67 G 82. [ 11] KENNEDYJ, EBERHART R C. Pa r t i c l eSwa rm Op t imi z a t i on [ C] ∥Pr o c e ed i ngso ft heIEEE I n t e r na t i ona lCon f e r enc eon t a t i on, 2007, 188( 1): 129 G 142. [ 15] WANG LZ, XU X D, LIU H L.Us i ngSVM me t hodop t imi z ed byimp r ovedpa r t i c l eswa rmop t imi z a t i ont oana l z et heemo t i on y o fCh i ne s et ex t[ J]. Compu t e rSc i enc e, 2020, 47( 1): 231 G 236. ZHANGSu Gme i , bo r ni n1982,ma s t e r, Neur a lNe two rks. New Yo rk, 1995: 1942 G 1948. l e c t u r e r. He rma i nr e s e a r chi n t e r e s t si n G bandANCa l r i t hm wi t hou tt heus eo fs on i z a t i ons i l go ynchr gna ana l s i sands oon. y [ 12]ROUT N K, DASDP, PANDA G. PSOba s edadap t i vena r r owG ands e c onda r t he s t ima t e[ J].Me chan i c a lSys t ems & S i l ypa gna Pr o c e s s i ng, 2019, 114: 378 G 398. [ 13]ZHUJW, FANG HS. Se l f G adap t i vee e c t o rpa r t i c l eswa rmop t i G j mi z a t i ona l r i t hm[ J]. Pa t t e r nRe c ogn i t i onandAr t i f i c i a lI n t e l l i G go c l ude l anguage da t a mi n i ng,c o r pus ZHANGBo G t a o , bo r ni n1982, Ph. D, a s G s o c i a t ep r o f e s s o r. Hi sma i nr e s e a r chi n G e, 2019, 32( 2): 109 G 116. genc t e r e s t si nc l ude t he o r e t i c a l me t hod o f c l eSwa rmandAn tCo l onyAl r i t hmsHybr i d i z edf o rImp r oved go l e a r n i ng. [ 14]SHELOKARPS, S IARRYP, JAYARAMAN V K, e ta l. Pa r t i G Con t i nuousOp t imi z a t i on[ J].App l i ed Ma t hema t i c sandCompu G c ompu t a t i ona li n t e l l i eand ma ch i ne genc

trang chủ - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-29 08:33
浙ICP备14020137号-1 $bản đồ khách truy cập$