基于大模型的新闻媒体网页信息提取方法

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 2025-03-31 09:49:12 · 1 · https://link.cnki.net/urlid/61.1167.G3.20250328.1541.006 基于大模型的新闻媒体网页信息提取方法 * 刘建文 1,2 摇 万子建 1,2 摇 陈摇 婷 1,2 摇 刘汪洋 1,2 摇 沈摇 宜 1,2 (1. 深圳市网联安瑞网络科技有限公司摇 深圳摇 518038; 2. 广东省网络空间认知域工程技术研究中心摇 深圳摇 518038) 摘摇 要:[ 研究目的] 针对现有基于非视觉特征的网页信息提取技术存在的采集精度不高、难以满足复杂需求等问 题,研究高效智能的网页信息提取技术,实现新闻媒体网页信息的快速准确提取。 [ 研究方法] 提出了一种基于大 模型的新闻媒体网页信息提取方法,通过模型基座对比选型、数据集构建、监督微调、提示词工程等技术手段构建网 页信息提取专用大模型,提升新闻媒体网页信息提取的准确率和效率。 [ 研究结果 / 结论] 通过多类新闻网页数据 智能提取方案实验对比分析发现,基于开源大模型基座及监督微调构建的专用新闻媒体大模型,其信息提取结果平 均准确率及平均 F1 值皆超过 90% ,相比现有网页信息提取方案具有更高的适用性。 关键词:大语言模型;新闻网页;文本信息提取;HTML 智能解析;网页要素智能提取;多语种识别;思维链 中图分类号:TP391摇 摇 摇 摇 摇 摇 文献标识码:A News Media Web Page Information Extraction Method Based on Large Language Model Liu Jianwen 1,2 摇 Wan Zijian 1,2 摇 Chen Ting 1,2 摇 Liu Wangyang 1,2 摇 Shen Yi 1,2 (1. Shenzhen CyberAray Network Technology Co. , Ltd, Shenzhen摇 518038; 2. Cyberspace Cognitive Domain Engineering Research Center of Guangdong Province,Shenzhen摇 518038) Abstract: [ Research purpose] Due to the low gathering accuracy and difficulty of meeting complex needs in existing web page informa鄄 tion extraction technologies based on non-visual features, this paper studies efficient and intelligent web page information extraction tech鄄 nology to achieve fast and accurate news media web page information extraction. [ Research method] This paper proposes a web page in鄄 formation extraction scheme based on a large language model for news media. Through model base comparison and selection, data set con鄄 struction, supervised fine-tuning, and prompt engineering, this paper constructs a new web page information extraction large language model with high versatility, which improves the accuracy and efficiency. [ Research result / conclusion] Through experimental compara鄄 tive analysis of other intelligent extraction schemes for news web page data, it is found that the dedicated news media large model built based on an open source large language model and supervised fine-tuning has an average accuracy rate and an average F1 value of more than 90% in information extraction, which is more applicable than existing web page information extraction schemes. Key words: large language model; news web page; text information extraction; intelligent parsing of HTML code; intelligent extraction of web page element; multi-language recognition; chain of thought 0摇 引摇 言 新闻媒体网站作为开源信息的主要来源,蕴含着 大量的信息数据,一直是数据挖掘研究领域重要的数 据来源。 为了更好地开展相关研究,需要从不同的网 站收集大量的信息,并将其转化为所需的结构化数据。 基金项目:国家重点研发计划( 编号:2022YFB3105400) 研究成果。 作者简介:刘建文,男,1987 年生,硕士,工程师,研究方向:网络安全大数据采集与治理;万子建,男,1996 年生,学士,无,研究方向:网络安全 大数据采集与治理;陈摇 婷,女,1995 年生,硕士,工程师,研究方向:大数据分析;刘汪洋,男,1987 年生,博士,高级工程师,研究方向:大数据 与人工智能;沈摇 宜,男,1980 年生,硕士,研究员级高级工程师,研究方向:人工智能与认知领域研究。 通信作者:刘汪洋
2. · 2 · 网页信息提取是其中的关键步骤,对于新闻媒体网站 HTML 源码或由源码解析生成的 DOM 树进行提取, 信息,则通常需要提取新闻标题、正文、发布时间、作者 主要包括基于模板、基于统计特征、基于机器学习等方 等内容。 法。 为了高效得到准确的新闻媒体网站内容,目前已 基于模板的方法主要利用的是网页结构特征,一 有学者开展了相关研究,按是否基于视觉特征可以分 般通过 XPath 定位器、CSS Selector 表达式进行实现。 为两类:一类是基于视觉特征的网页信息提取方法,另 例如,王宇龙等 [6] 基于网页结构及其与文本内容的关 一类是基于非视觉特征的网页信息提取方法。 基于视 联关系提出了一种多类型网页文本要素提取方法,根 觉特征的网页信息提取方法,主要利用一些视觉特征 据不同网页信息要素在网页中的排布和位置实现不同 来完成网页信息抽取,如字体大小、背景颜色、逻辑块、 类型要素信息的提取。 淮晓永等 [7] 提出了一种自适应 间距等,而基于非视觉特征的网页信息提取方法则更 的网页信息提取方法 DWSIE,该方法基于典型网站的 多关注的是网页内容自身及其结构。 由于基于视觉特 结构进行网页分类数据的标注和学习,以此增强模板 征的网页内容提取方法依赖于网页布局和视觉呈现, 的通用性,同时基于子图上下文进行对应结构化信息 通常资源耗费较大,并且页面布局的复杂性将会降低 的提取。 然而,基于模板的方法通用性较受限,当网页 网页信息提取的准确率,但基于非视觉特征的网页信 结构发生变化时,原定模板可能不再适用,此时需要重 息提取方法,资源消耗较低,同时可以通过页面裁剪等 新根据网页结构生成新的抽取模板,效率较低,成本较 技术手段提前将页面噪声进行处理,因此基于非视觉 高。 特征的网页信息提取方法是值得探索的技术手段之 基于统计特征的方法主要根据网页正文在文本长 一。 然而,现有基于非视觉特征的网页信息提取方法 度、标签长度、标签数量等方面与非正文的统计规律的 的效率、通用性和准确率暂时无法高效满足特定的数 差异性,通过计算多个指标的密度进而得到混合密度, 据提取需求。 因此,本文主要基于非视觉特征研究高 从而区分正文和噪音。 例如,Weninger 等 [8] 提出了一 效智能的新闻媒体网站信息提取方法。 种通过使用 HTML 文档的标签比率从不同的网页中 1摇 相关研究 提取内容文本的方法,该方法对标签比率的逐行计算 进行了描述,并将结果直方图聚类到内容和非内容区 网页信息提取是数据采集领域重要的研究热点, 域。 杨大为等 [9] 结合标签密度和文本密度提出了一种 高效准确的网页信息提取方法能极大提高数据采集的 网页正文提取方法,与传统的按行提取方法不同,该方 质量。 针对现有的新闻媒体网页信息提取方法,按是 法将所要提取的正文内容看作一个整体,通过选取得 否采用视觉特征,将其分为基于视觉特征的网页信息 分最高的 DOM 节点为目标节点。 然而,基于统计的 提取方法和基于非视觉特征的网页信息提取方法。 方法一般需要先进行除噪操作,此操作容易过滤掉非 基于视觉特征的网页信息提取方法典型的算法为 视觉分块算法,如 VIPS 算法 [1] 、VIDE 算法 [2] 。 但这 种方法在通用性和实用性上表现不佳,因此,研究者们 基于该方法进行了深入研究与改进。 王宪发等 [3] 文本内容,如图片、表格等,但这些非文本内容可能包 含重要的正文信息,因此,该信息抽取方法存在一定的 限制。 结合 基于机器学习的方法主要通过对信息提取的特征 有监督机器学习方法提出了一种基于视觉特征的网页 进行学习和训练,进而实现对网页信息的分类。 在基 信息 抽 取 方 法 WEMLVF, 具 有 良 好 的 通 用 性, 并 在 于机器学习的研究成果方面,Wu 等 [10] 提出了一种结 WEMLVF 框架的基础上分别基于 XPath 和基于 Soft鄄 合学习模型和分组技术的有效方法来识别网页中的实 Mealy 算法提出了自动生成抽取模板方法,弥补了实 际内容,该方法利用 DOM 树节点属性生成多个特征 用性不足的缺点。 Song 等 [4] 基于 VIPS 算法提出了一 来训练机器学习模型,并根据学习模型选择候选节点, 种通过学习块特征( 包括空间特征和内容特征) 对网 同时考虑到实际内容通常位于空间连续块中,继而开 页块重要性进行排序的方法,从而区分页面中的噪声 发了一种分组技术,通过过滤掉噪声数据和选择缺失 提 数据来进一步处理候选节点。 周艳平等 [11] 基于 SVM 出了一种基于卷积神经网络的数据区域定位方法和一 分类器和文本密度特征提出了一种精度较高的网页信 种基于视觉信息的分割算法,以进行深度网络的数据 息提取方法。 然而,基于机器学习的方法虽然提升了 提取,并证明该方法能有效提高数据区域定位的精度 提取效率,但该方法依赖于大量标记数据,成本较高, 和数据提取的效率,但该方法只对视觉特征相似的网 且网页信息抽取准确率偏低。 或不重要的块,以提高信息抽取准确率。 Liu 等 [5] 站适用性高。 基于非视觉特征的网页信息提取方法一般利用 随着生成式人工智能的不断发展,网页信息抽取 也开始引入大模型技术,但现有基于大模型技术的网
3. · 3 · 页信息提取方法存在通用性不高、适合抽取的网站有 限、抽取准确率随机性强的问题。 因此,本文提出一种 新的基于大模型的新闻媒体网页信息提取技术方案, 该方案通过模型选型、定制微调、提示词工程等构建专 根据需求从 CBS 新闻、东方日报、人民网、俄罗斯 新报消息报等不少于 300 个网站进行网页数据收集, 涵盖英文类、中文类( 简体和繁体) 、俄语类和其他语 种类( 如德语、日语、韩语、阿拉伯语等) 新闻网站。 鉴 用的新闻媒体智能提取大模型,使其最大程度适配多 于俄语类新闻网站及其网页样本的数量在各类语言中 语言多类型新闻媒体网页信息提取,提升了提取的准 占据的比例仅次于英文类和中文类,因此,本文将其单 确率。 列出来与其他语言并列。 所有网站类型网页数据采集 2摇 基于大模型的新闻网页信息提取方案 完成后,识别并定位网页数据中的新闻标题、正文、发 布时间、作者等元素,对网页数据进行数据清洗与裁剪 为了提高新闻网页信息提取的效率和准确率,本 处理,得到较为规范的网页数据。 通过设计提示模板, 文基于大模型技术提出了一种新的网页信息提取方 构建思维链,对网页数据进行格式转换,完成网页数据 案。 该方案根据信息提取需求从不同新闻网站采集数 集的构建与划分。 (3) 微调训练与评估 据并完成处理,通过设计 prompt 模板构建数据集,并 基于 Lora 微调原理进行微调参数的设置,利用构 通过制定合适的微调策略微调所选模型,从而完成新 闻网页信息提取大模型的构建,实现高效准确的智能 信息提取目标。 总体技术方案如图 1 所示,该方案主 要分为 4 个部分:模型评估与选择、数据集构建、微调 建的数据集进行模型微调,通过损失函数评估微调模 型的性能,直至其满足评估指标。 (4) 微调后新闻网页信息提取大模型调用 例如,针对给定的源网页,如图 2( a) 所示,获取其 训练与评估、微调后新闻网页信息提取大模型调用,具 网页 HTML 编码并调用微调后新闻网页信息提取大 体介绍如下。 模型,调用完成后,大模型将输出该源网页信息提取结 果,如图 2( b) 所示,包含新闻标题、作者、发布时间、正 文。 ( a) 源网页 图 1摇 总体技术方案 (1) 模型评估与选择 根据信息提取需求调研现有合适的大模型,确定 候选模型,设计评估因子对候选模型进行评估,综合考 虑多语言识别能力、长文本推理能力、代码执行能力、 资源消耗大小等因素,最终确定以 Qwen2. 5 -14B-In鄄 struct 模型为基座进行微调再运用。 (2) 数据集构建 ( b) 源网页信息提取结果 图 2摇 新闻网页信息提取实例 摇 2. 1摇 模型评估与选择 大模型因其强大的泛化能力而被广泛应用至不同 领域,用于处理复杂的任务或数据。 根据网页信息提 取需求,本文从多语言识别能力、长文本推理能力、代 码执行能力等方面进行模型基座的评估和选择。 基于
4. · 4 · OpenCompass 9 月 榜 单 ( 前 五) 数 据 [12] 和 11 月 榜 单 摇 2. 2摇 数据集构建 的综合评分分别排名第一和第五,表现优异。 具体来 模型微 调 操 作。 数 据 集 构 建 的 重 点 在 于 数 据 准 备、 ( 前五) 数据 [13] ,如表 1 所示,Qwen2. 5 - 72B - Instruct 说,Qwen2. 5 在知识、编码、数学、指令跟踪、长文本生 成、结构化数据和结构化输出生成等方面均有显著改 进,且其支持多达 128k 的文本长度、支持超过 29 种语 模型选择完成后需进行数据集的构建,以便进行 Prompt 模板设计和数据集标注。 2. 2. 1摇 数据准备 本文主要从 CBS 新闻、趋势民调、东方日报、ET鄄 言。 由此,本文初步选定 Qwen2. 5 大模型作为模型基 today-永续云、PC Home 新闻、土耳其之声、金凤凰网、 表 1摇 OpenCompass 大模型性能平均值排行情况( 前五) 新闻网 站 进 行 网 页 数 据 采 集, 涵 盖 中 文 ( 繁 体 和 简 座。 月榜单 9 月榜 大模型 性能平均值 Qwen2. 5-72B-Instruct 70. 3 GPT-4o-20240513 67. 2 Claude 3. 5 Sonnet 20240620 噪音元素,转换标签元素,裁剪导航栏、页脚、评论区域 和广告链接等,最终得到较为规范的数据。 65. 4 2. 2. 2摇 Prompt 模板设计 71. 1 o1-mini-2024-09-12 Prompt 模板设计是微调大模型的关键环节,高质 61 GPT-4o-20241120 11 月榜 元素,并进行数据清洗和裁剪操作,如剔除无效元素和 65. 7 Mistral-Large-Instruct-2407 Gemini-1. 5-Pro-Latest 量的 Prompt 模板能够极大地提高大模型输出内容的 59 质量,而不合适的 Prompt 模板不仅会降低模型输出的 58. 1 GLM-4-Plus Qwen2. 5-72B-Instruct 体) 、英语、日语、德语、俄语等不同语言。 采用 Xpath 原理定位新闻标题、新闻作者、发布时间和新闻正文等 68. 9 Step-2-16K 人民网、俄罗斯新报、东京新闻、菱传媒等超过 300 个 57. 3 质量,甚至可能对其进行错误引导,以至于答非所问。 摇 摇 根据官网介绍,Qwen2. 5 大模型的参数大小分为 设计 Prompt 模板需要明确解决的问题、解决步骤、期 Qwen2. 5 大模型的性能整体上与参数大小呈正相关, 对不同类型网站设计出一套提示模板库,如图 3 所示 或其他问题,这种正相关关系并非绝对成立。 本文从 由图 3 可见,本文的 Prompt 模板包含 Prompt 和 0. 5B、1. 5B、3B、7B、14B、32B 和 72B,从数据上来看, 望的答案等内容,本文根据新闻网页信息提取需求,针 但由于存在计算资源限制、任务适配性、数据集代表性 是模板库中的一个典型 Prompt 模板。 任务需求出发,选取 Qwen2. 5 -7B-Instruct、Qwen2. 5 - Response 两个部分。 其中,Prompt 是模板设计的核心 -Instruct 作为候选大模型,其参数比较 [14] 如表 2 所示。 代码解析、新闻标题提取、新闻作者提取、发布时间提 Qwen2. 5-14B-Instruct 作为微调模型基座。 的思路和步骤。 五个任务具体介绍如下。 14B-Instruct、Qwen2. 5-32B-Instruct 和 Qwen2. 5-72B 关键部分,用于提示模型需要执行的任务,如 HTML 结合表 2 数 据 和 现 有 实 验 资 源 条 件, 本 文 最 终 选 定 取、新闻正文提取等任务指令,以及提示对应任务执行 表 2摇 不同参数大小的 Qwen2. 5 大模型官网能力评估 评估数据集 MMLU-Pro MMLU-redux GPQA MATH GSM8K HumanEval MBPP MultiPL-E LiveCodeBench Qwen2. 5- Qwen2. 5- Qwen2. 5- Qwen2. 5- 71. 1 69. 0 63. 7 56. 3 49. 0 49. 5 45. 5 36. 4 72B-Instruct 32B-Instruct 14B-Instruct 7B-Instruct 86. 8 83. 1 95. 8 86. 6 88. 2 75. 1 83. 9 83. 1 95. 9 88. 4 84. 0 75. 4 80. 0 80. 0 94. 8 83. 5 82. 0 72. 8 75. 4 75. 5 91. 6 84. 8 79. 2 70. 4 55. 5 51. 2 42. 6 28. 7 LiveBench 0831 52. 3 50. 7 44. 4 35. 9 Arena-Hard 81. 2 74. 5 68. 3 52. 0 2305-2409 IFEval strict-prompt AlignBench v1. 1 MT-bench 84. 1 8. 16 9. 35 79. 5 7. 93 9. 20 81. 0 7. 94 8. 88 71. 2 7. 33 8. 75 (1) HTML 代码解析 针对输入的新闻详情页 HTML,根据 HTML 编码 特点,使用 HTML 解析库中合适的方法进行 HTML 解 析,如 XPath、正则表达式等,解析的过程中需要大模 型能够正确解析 HTML 结构,自动处理可能出现的标 签嵌套、特殊字符以及编码问题。 (2) 新闻标题提取 HTML 解析完成后,大模型需要考虑到不同网站 的标题标签表现形式,针对不同网站准确查找并定位 包含新闻标题的标签,如<h1 >、<h2 >、<h3 >、<title>、< meta property = " og:title" >等,提取标签内标题文本, 避免误提取其他标题,如导航栏标题或侧边栏标题。 (3) 新闻作者提取 提取新闻作者时,大模型需要根据新闻作者在新 闻网页中的位置和在 HTML 编码中的作者提示词提 取到正确的作者名称,避免提取到其他无关信息,如编 辑、翻译者等。
5. · 5 · 摇 摇 (4) 发布时间提取 图 3摇 模板设计 落等多种形式,这些不同形式的表达往往伴随着多样 提取发布时间时,大模型需要考虑不同网站的时 化的样式设计与布局安排。 此外,新闻正文在不同语 间标签表现形式,如<time>、<meta property = " article: 言环境下的呈现方式亦存在显著差异,不同国家和地 published_time" >等,准确查找并定位可能包含发布时 区的新闻网站往往根据其地域文化和阅读习惯,形成 间的标签,同时需要考虑不同语言和地区的时间表达 了各具特色的呈现风格与习惯。 因此,本文在运用大 方式,使用正则表达式或自然语言处理技术识别不同 模型进行新闻正文提取的过程中,综合考虑了上述多 的时间格式,提取正确的时间文本内容,完成对时区信 重复杂因素,在正文提取模块提供了更加丰富的提示 息的理解和处理。 词,以确保大模型提取正文的准确性和完整性。 (5) 新闻正文提取 例如,在提取新闻正文时,大模型需要考虑不同网 相较于新闻标题、作者及发布时间等网页要素的 站的正文结构和正文标签表现形式,准确查找并定位 提取,新闻正文的提取任务更加复杂。 首先,不同新闻 包含正文的标签,如<div>、<body>、<article>、<section 网站采用不同的网页架构设计,它们可能依赖于不同 >、<p>等,以及其他可能包含正文内容的标签,如<li>、 的 HTML 标签与属性来标记正文内容,且这些正文内 <blockquote>等,同时根据不同网站特点使用 class、id、 容往往被嵌套在多层标签结构中。 其次,新闻正文区 role 或其他属性来定位标签,将标签内的文本内容准 域与非正文区域之间的界限往往并不清晰,且新闻正 确提取后合并成完整的正文,并完成对文本的清洗操 文的表达形式颇为丰富,涵盖了纯文本、图像、表格、段 作。
6. · 6 · 表 3摇 Lora 微调参数设置 此外,值得注意的是,大模型学习理解能力很强, 它在做新闻标题提取、新闻作者提取、发布时间提取和 参数名 参数解释 新闻正文提取时,除了根据新闻网页 HTML 编码中的 --gradient_accumulation_steps 梯度累积 标签进行对应文本内容的提取,大模型还在大量的数 据学习过程中获得了新的信息提取能力,即大模型能 够在没有网页标签的情况下正确提取出新闻标题、作 者、正文和发布时间,但该过程难以阐释。 模 板 设 计 的 另 一 个 重 要 部 分 是 Response, Re鄄 sponse 是对模型思考过程和输出结果进行设置的部 分,本文要求大模型根据 Prompt 输出新闻内容提取的 --learning_rate 学习率 --loraplus_lr_ratio LoRA+ 学习率比例 --num_train_epochs 参数值 4 5e-5 3 训练轮数 16 按照表 3 的参数设置进行微调训练,训练过程的 损失函数迭代曲线如图 5 所示。 思考过程和提取结果,且网页提取结果期望以 Json 格 式返回。 2. 2. 3摇 数据集标注 本文定义 HTML 代码解析、新闻标题提取、新闻 作者提取、发布时间提取、新闻正文提取等五个任务, 按照所设计的 Prompt 模板进行数据转换和标注,形成 训练数据集和测试数据集。 摇 2. 3摇 微调训练与评估 在现有大模型微调方法中,Lora 微调方法 [15] 的灵 活性和重用性较高,具有训练高效、硬件门槛低的优 势,且不存在推理延迟的问题,只需训练少量参数即可 达到有效适配特定任务的目标。 因此,本文结合当前 图 5摇 训练过程损失函数迭代曲线 由图 5 可见,随着迭代次数的增加,平滑后的 loss 实验资源条件和数据提取需求,采用 Lora 原理进行大 值和原始的 loss 值逐渐下降并最终趋于平稳,这表明 模型微调训练与评估。 使用 Lora 进行微调的过程是成功的,模型正在有效地 Lora 微调的主要原理是低秩参数化更新矩阵,即 学习并优化其参数。 评估过程的收敛结果与训练过程 利用重参思想将后期训练好的新参数和模型原来预训 相同。 由此说明经过微调后的新闻网页信息提取大模 练好的参数进行合并以得到更新完成后的矩阵,如图 型能够有效识别设计的 Prompt 模板,具备准确提取新 4 所示,虚线框部分( 预训练好的模型参数) 保持不变, Lora 在虚线框旁边加入了包含可训练参数的 A、B 两 个结构,A 初始化为高斯分布,B 初始化为零,由此在 训练刚开始时附加的参数就是零。 由于 A 的输出维 度和 B 的输入维度 r 远小于原始模型输入输出的维度 d,因此 Lora 微调方法可以极大地缩减待训练的参数, 闻网页标题、作者、发布时间和正文的能力。 3摇 实验结果与分析 摇 3. 1摇 数据集 由于网上公开的针对新闻网站网页信息提取的数 据集较少,因此,本文根据多种语言类型从 374 个新闻 网站中共采集了 13. 75 万个页面数据,涵盖英文、中文 提升了训练效率。 简体、中文繁体、俄语及其他语种类型,由于每个新闻 网站有多种不同的网页版块,因此,每个新闻网站将采 集多条网页样本,使大模型能够更加全面地学习页面 信息提取。 不同语种类型的网站数量及网页样本总数 量如表 4 所示。 表 4摇 不同语种类型的新闻网站数量及网页样本总数量 网站类型 网站数量 网页样本总数量 英文类 136 >50000 70 >30000 中文繁体类 图 4摇 Lora 微调原理 针对本文的网页信息提取需求,结合当前实验资 源条件,设置 Lora 微调参数如表 3 所示。 中文简体类 俄语类 日语类 75 68 6 >30000 >10000 4000
7. · 7 · 续表 4摇 不同语种类型的新闻网站数量及网页样本总数量 网站类型 网站数量 网页样本总数量 韩语类 5 4000 3 3000 4 阿拉伯语类 土耳其语类 3 意大利语类 中,在测试时,除了使用数据集中划分出来的测试集进 行网页信息提取结果测试,本文还新加了一些前述语 900 种类型的网站页面数据进行测试,使结果更具说服力。 500 2. 2. 2 节设计的 Prompt 模板一致。 其中,Prompt 是提 数据集主要包括 Prompt 和 Response 两个部分,与 400 1 法语类 数据集按照 9:1 的比例划分为训练集和测试集。 其 3000 3 德语类 据集,旨在提升模型进行多步骤逻辑推理的能力,并将 摇 摇 采集到的新闻网页数据经过清洗与裁剪后,对每 一条网页数据的标题、作者、发布时间和正文进行标 注,人工整编成专用思维链( Chain of Thought,CoT) 数 根据模板设计,在 prompt 部分给出“ 新闻详情页 HTML 1冶 根据模板设计,在 prompt 部分给出“ 新闻详情页 HTML 2冶 根据模板设计,在 prompt 部分给出“ 新闻详情页 HTML 3冶 根据模板设计,在 prompt 部分给出“ 新闻详情页 HTML 4冶 根据模板设计,在 prompt 部分给出“ 新闻详情页 HTML 5冶 摇 3. 2摇 实验对比与分析 基于给定的“ 新闻详情页 HTML 2冶 ,给出思考过程和每个步骤的提取结果, 并给出 5 个步骤完成后的完整的该新闻详情页信息提取结果冶 基于给定的“ 新闻详情页 HTML 3冶 ,给出思考过程和每个步骤的提取结果, 并给出 5 个步骤完成后的完整的该新闻详情页信息提取结果冶 基于给定的“ 新闻详情页 HTML 4冶 ,给出思考过程和每个步骤的提取结果, 并给出 5 个步骤完成后的完整的该新闻详情页信息提取结果冶 基于给定的“ 新闻详情页 HTML 5冶 ,给出思考过程和每个步骤的提取结果, 并给出 5 个步骤完成后的完整的该新闻详情页信息提取结果冶 表 6摇 实验环境设置 规格 操作系统 Ubuntu 22. 04 442 GB 3. 11. 9 12. 4 550. 54. 15 NVIDIA RTX A5000-24GB 伊 8 GPU (2) F1 值:该值是对精确率( Precision) 和召回率 ( Recall) 两个指标的综合衡量,F1 值越高,说明本文提 出的新闻网页信息提取大模型预测越精确。 对于一个 问题 q,用 R predict 表示模型预测的问题 q 的答案列表, 名称 GPU 驱动 Response 并给出 5 个步骤完成后的完整的该新闻详情页信息提取结果冶 用的操作系统、语言工具、驱动程序等。 CUDA 版本 所示。 基于给定的“ 新闻详情页 HTML 1冶 ,给出思考过程和每个步骤的提取结果, 本文的实验环境设置如表 6 所示,包括实验所使 Python 版本 预期的思考过程和输出结果。 数据集样本示例如表 5 表 5摇 数据集样本示例 Prompt 内存 示部分,用来说明任务指令和执行思路。 Response 为 摇 摇 本文采用准确率和 F1 值来量化分析实验结果,准 确率和 F1 值的介绍如下: 用 R lable 表示数据集标记的问题 q 的答案列表,则定义 F1 值如下: Precision = R predict 疑 R lable R predict Recall = R predict 疑 R lable R lable F 1 = 2 伊 Precision 伊 Recall Precision + Recall 本文调用微调完成的大模型进行网页信息自动提 (1) 准确率:本文将准确率平均分配为 4 部分,即 取后,再对其准确性进行评估。 此外,为了进一步表明 25% 的比例。 若一条网页数据的标题、作者、发布时间 的 GNE 网页信息提取方案和 Newspaper3k 网页信息 标题、作者、发布时间和正文 4 个字段在准确率中各占 和正文均正确提取,则判断该条数据的提取准确率为 100% ;若只有其中某个字段提取正确,则提取准确率 为 25% 。 用 C web 表示单个网站信息提取准确率、 C title 表示 标 题 提 取 准 确 率、 C author 表 示 作 者 提 取 准 确 率、 C date 表示发布时间提取准确率、 C text 表示正文提取准 确率,用 n 表示该网站的测试样本数,则单个网站网页 信息提取准确率计算公式如下: 移 ( C n C web = 1 title + C author + C date + C text ) n 本文方案的实用性和通用性,本文选取了具有代表性 提取方案进行对比,同时对微调前大模型网页信息提 取准确率进行了对比评估。 平均准确率对比结果如表 7 所示,平均 F1 值对比结果如表 8 所示。 实验结果表明,本文提出的新闻网页信息提取大 模型在各种类型语言网站无论是准确率还是 F1 值均 远远高于对比方案,其平均抽取准确率达到 92. 5% 、 平均 F1 值达到 93. 1% 。 由此可见,本文提出的新闻 网页信息提取大模型性能优异,能够满足多种不同语 言的新闻媒体网站信息提取需求,具有极高的实用性
8. · 8 · mentation algorithm[ J] . Microsoft Research, 2003. 和通用性。 [2] 摇 Liu W, Meng X, Meng W. Vide: A vision-based approach for 表 7摇 方案平均准确率对比结果 网站 中文简体类 中文繁体类 英语类 俄语类 其他语种类 综合所有网站 摇 摇 方案 1: GNE 54. 8% 50. 1% 36. 5% 54. 2% 32. 5% 48. 2% 方案 2: 方案 3: 本文 21. 9% 68. 3% 90. 9% Newspaper3k 微调前大模型 50. 2% 54. 2% 39. 1% 49. 7% 42. 7% 62. 8% 64. 2% 56. 8% 52. 3% 60. 6% 方案 90. 8% 91. 7% 99. 9% 92. 0% 92. 5% 中文简体类 中文繁体类 英语类 俄语类 其他语种类 综合所有网站 方案 1: GNE 29. 3% 38. 9% 0. 1% 42. 9% 0. 1% 29. 0% 方案 2: 方案 3: Newspaper3k 微调前大模型 本文 方案 1. 0% 14. 6% 89. 9% 32. 6% 32. 6% 94. 2% 20. 7% 11. 1% 50. 0% 20. 2% 20. 9% 20. 9% 30. 1% 22. 8% and Data Engineering, 2009, 22(3) : 447-60. [3] 摇 王宪发, 郭摇 岩, 刘摇 悦, 等. 基于视觉特征的网页信息抽取 方法研究[ J] . 中文信息学报, 2019, 33(5) : 103-12. [4] 摇 Song R, Liu H, Wen J R, et al. Learning block importance models for web pages[ C] . In Proceedings of the 13th Interna鄄 tional Conference on World Wide Web,2004: 203-211. [5] 摇 Liu J, Lin L,Cai Z, et al. Deep web data extraction based on visual information processing [ J] . Journal of Ambient Intelli鄄 gence and Humanized Computing, 2017, 15(2) : 1481-1491. 表 8摇 方案平均 F1 值对比结果 网站 deep web data extraction[ J] . IEEE Transactions on Knowledge 91. 7% 99. 9% 93. 0% 93. 1% [6] 摇 王宇龙, 赖摇 华, 余正涛, 等. 融合结构和内容特征提取多类 型网页文本要素[ J] . 山西大学学报 ( 自然科学版) , 2016, 39(3) : 386-391. [7] 摇 淮晓永, 韩晓东, 高若辰, 等. 一种自适应网页结构化信息提 取方法[ J] . 电子技术应用, 2020, 46(12) : 97-102. [8] 摇 Weninger T, Hsu W H, Han J. CETR: Content extraction via tag ratios[ C] . In Proceedings of the 19th International Confer鄄 ence on World Wide Web, 2010: 971-980. [9] 摇 杨大为,王诗念,包立岩,等. 基于文本及 HTML 标签密度的 网页正文提取[ J] . 沈阳理工大学学报, 2022, 41 ( 4 ) : 14 - 4摇 结摇 语 19. 新闻媒体网站包含大量开源信息,是数据采集主 要来源之一,而信息提取是数据采集过程的核心环节, 研究新闻网页信息提取具有重要意义。 然而,新闻媒 体网站种类丰富,且使用的语言不一,现有网页信息提 取方法无法高效适配多语言多类型新闻网站。 本文围 绕新闻网站信息的高效智能提取需求,通过模型基座 对比选型、数据集构建、Lora 微调、Prompt 模板设计等 技术手段,构建了一种基于 Qwen2. 5 -14B-Instruct 大 模型的新闻网页信息提取方案。 此外,本文从 374 个 新闻网站采集了 13. 75 万条网页数据,通过人工整编 构建了专业 CoT 数据集,并在此数据集上进行了实验 验证和对比分析,结果表明本文提出的方案实现了较 高的准确率,具有较高的通用性。 由于实验资源有限, 本文主要针对的是新闻网页文本信息的提取,未来将 在实验资源丰富的条件下研究新闻网页多模态信息提 取技术,进一步提升新闻网页信息提取的效率和准确 率。 [10] Wu S, Liu J, Fan J. Automatic web content extraction by com鄄 bination of learning and grouping [ C] . In Proceedings of the 24th International Conference on World Wide Web, 2015: 1264 -1274. [11] 周艳平,李金鹏,宋群豹. 一种基于 SVM 及文本密度特征的 网页信息提取方法[ J] . 计算机应用与软件, 2019, 36 (10 ) : 251-255, 261. [12] OpenCompass 官网, CompassBench large language model lead鄄 erboard_official closed benchmark_24 -09 _overall [ EB / OL] . [2024 - 12 - 23 ] . https: / / rank. opencompass. org. cn / leader鄄 board-llm? m = 24-09. [13] OpenCompass. CompassBench large language model leaderboard _official closed benchmark_24-11_overall [ EB / OL] . [2024- 12-23 ] . https: / / rank. opencompass. org. cn / leaderboard - llm? m = 24-11. [14] Qwen Team. Qwen2. 5-LLM:扩展大型语言模型的边界 [ EB / OL] . [2024 -12 -23] . https: / / qwenlm. github. io / zh / blog / qwen2. 5-llm / . [15] Hu E J, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models[ J] . arXiv preprint arXiv: 2106. 09685, 参 考 文 献 [1] 摇 Deng C, Yu S,Wen J R, et al. VIPS: A vision-based page seg鄄 2021.

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.143.0. UTC+08:00, 2025-04-23 23:21
浙ICP备14020137号-1 $bản đồ khách truy cập$