基于大语言模型指令微调的案件信息要素抽取方法研究

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 2025-04-10 14:48:26 https://link.cnki.net/urlid/11.5602.tp.20250410.1201.004 计算机科学与探索 Journal of Frontiers of Computer Science and Technology doi: 10.3778/j.issn.1673-9418.2412085 基于大语言模型指令微调的案件信息要素抽取方法研究 王劲滔, 孟琪翔, 高志霖, 卜凡亮 + 中国人民公安大学 信息网络安全学院, 北京 100038 + 通信作者 E-mail: bufanliang@sina.com 摘 要:当前随着人工智能技术的快速发展,科技兴警战略已成为提升公安工作现代化水平的重要途径。 本文旨在研究基于指令微调大语言模型的案件信息要素抽取方法,以期通过先进的自然语言处理技术提高 公安机关在案件信息处理上的效率和准确性,进一步推动公安工作信息化进程。在科技兴警的大背景下, 公安机关面临着海量的非结构化案件文本信息处理需求,传统的人工处理方式已难以满足当前的工作要求。 大语言模型作为一种新兴的人工智能技术,具备强大的语言理解和生成能力,能够自动从案件文本中抽取 关键信息要素,如涉案人员、时间、地点、案件性质等,为案件分析、证据收集和决策支持提供有力支撑。 本文研究通过高效微调技术 LoRA、指令微调、数据增强、情境学习等技术提升大语言模型的信息抽取能 力。实验结果表明,该方法在自建的案件文本数据集上取得了显著的性能提升,抽取准确率和召回率均优 于传统方法。基于大语言模型的案件信息要素抽取方法为公安工作信息化提供了一种新的技术手段,对于 提高公安工作效率、增强案件处理能力具有重要意义。未来,随着技术的不断进步和应用的深入,该方法 有望在公安领域得到更广泛的应用。 关键词:大语言模型;信息抽取;指令微调;公安业务;命名实体识别 文献标志码:A 中图分类号:TP391 Research on Case Information Element Extraction Method Based on Instruction Fine-tuning of Large Language Models WANG Jintao, MENG Qixiang, GAO Zhiling, BU Fanliang + Information Network Security Academy, People`s Public Security University of China, Beijing 100038, China Abstract: With the rapid development of artificial intelligence technology, the strategy of "technology-driven polic- ing" has become an important way to enhance the modernization level of public security work. This paper aims to study the method of case information element extraction based on instruction fine-tuning of large language models, in order to improve the efficiency and accuracy of public security organs in case information processing through ad- vanced natural language processing technology, and further promote the informatization process of public security work. Under the background of technology-driven policing, public security organs are faced with the demand for processing a large amount of unstructured case text information, and the traditional manual processing method can no 基金项目:中国人民公安大学安全防范工程双一流专项(2023SYL08)。 This work was supported by the Double First-Class Innovation Research Project for People`s Public Security University of China(No.2023SYL08).
2. 2 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 longer meet the current work requirements. Large language models, as an emerging artificial intelligence technology, have strong language understanding and generation capabilities, and can automatically extract key information ele- ments from case texts, such as involved personnel, time, location, and case nature, providing strong support for case analysis, evidence collection, and decision support. This paper studies the enhancement of information extraction capabilities of large language models through efficient fine-tuning techniques such as LoRA, instruction fine-tuning, data augmentation and in-context learning. The experimental results show that this method has achieved significant performance improvement on the self-built case text dataset, with both extraction accuracy and recall rate being better than traditional methods. The method of case information element extraction based on large language models provides a new technical means for the informatization of public security work, which is of great significance for improving the work efficiency of public security and enhancing case handling capabilities. In the future, with the continuous progress of technology and the deepening of application, this method is expected to be more widely applied in the field of public security. Key words: Large Language Model; Information Extraction; Instruction Fine-tuning; Police Affairs; Named Entity Recognition 近年来,随着人工智能技术的兴起与公安信 量的任务相关语料进行微调。受限于公安工作的 息化基础设施建设的逐渐完善,科技兴警战略已 敏感性、保密性,大多数案件相关的数据信息只 成为提升公安工作现代化水平的重要途径。当前 能保存在公安内网中。案件信息命名实体识别缺 社会治安形势快速变化,公安机关日常工作涌现 乏相关的训练数据资源。同时考虑到微调需要人 的文本数据呈指数级增长。这些文章跨幅从几百 力进行数据标注以及一定的领域知识,在警力稀 到几千字不等,文章种类包括案件文档、接处警 缺的宏观背景下相关工作一直难以推广,大量案 单、审讯笔录等。在这些文本中蕴含着丰富的刑 件数据没能得到充分利用。 事案件的构成要素 [1] ,抽取并分析这些案件信息 近年来,大语言模型由于其在文本分类和信 实体对于串并案分析、法律研究和政策制定具有 息抽取等 nlp(natural language processing, nlp)传统 重要价值。 任务上强大的零样本(zero-shot)学习能力,渐渐受 传统的信息抽取方法大多依赖于规则和模 到人们的关注与应用 [3] 。大语言模型通过在海量 板,这些方法虽然在特定场景下有效,但其灵活 通用文本语料库上训练,能够通过理解实体的上 性和适应性较差,难以应对复杂的法律文本。这 下文依赖关系以及自身蕴含的通用领域知识,自 些文本常常包含大量专业术语、隐含信息以及多 动从专业文本中抽取关键信息要素 [4-7] 。然而这些 种叙述方式,传统方法在处理这些复杂信息时往 研究大部分直接调用 chatgpt 等大模型的接口,具 往面临挑战。随着自然语言处理技术的快速发展, 有敏感数据泄露的源生性风险。同时设计的提词 基于深度学习的模型,尤其是预训练模型(如 Bert、 诱导返回结果缺乏统一格式,给进一步使用造成 Erine 等),逐渐显示出其在司法文本理解和信息 [2] 抽取方面的优势 。然而尽管预训练模型在大量 的无标注语料中学习了一定程度的语法和语义 特征,在将其应用到具体下游任务时仍然需要大 困难。 针对上述公安实战会遇到的问题,本文主要 做了以下工作: (1)针对案件信息训练资源稀缺、训练难度大
3. 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 3 的问题。研究基于开源大模型进行少样本、低资 更进一步。预训练模型逐渐取代传统深度学习算 源的信息抽取方法。 法成为上述范式中的文本编码层。在司法领域有 (2)针对大模型抽取信息返回结果缺乏统一 众多基于 BERT 预训练模型及其变种的相关命名 格式,不能直接对接下游应用。研究使用指令微 实体识别的研究。如陈剑 [2] 、李春楠 [8] 、曾兰兰 [9] 调数据集训练诱导大模型返回常见的结构化数 等人的研究将 BERT、LSTM 和 CRF 分别作为文 据格式 json,方便接入抽取信息后的下游应用以 本嵌入层、上下文编码层和标签解码层对案件进 及持久化储存。 行命名实体提取。在包含公诉机关、被告人等多 (3)横向对比国内外大模型,通过实验测试出 效果最优的大语言模型。同时对比传统深度学习 方法,证明大语言模型方法在少样本训练情况下 优势明显。 种实体类型自主创建的数据集上进行了实验,性 能相比先前传统方法得到大幅提升。 然而由于命名实体识别专业领域缺乏相关领 域数据集,大部分自行标注的数据集由于信息的 敏感性、保密性不能公开,可以用来训练的数据 1 1.1 相关工作 命名实体识别 极为有限。专业领域相关的文本进行命名实体识 别亟需低资源、少样本的方法。 命名实体识别是自然语言处理领域中的一个 利用数据增强手段来增加用于训练的数据 任务,它的目标是识别文本中具有特定意义的实 是解决数据稀缺问题最常见的方法。传统的数据 体,并将它们分类为预定义的类别。这些实体通 增强手法包括单词级别修改和回译两种方法。其 常是名词短语,可以包括人名、地名、组织名、 中单词级别修改指的是利用规则、统计原理、生 时间表达式、数量、货币值等。通过命名实体识 成模型等方法替代原文中相关的单词,引入适当 别任务,能够从非结构化文本中提取出有价值的 噪声的同时扩充了文本数量。例如,Feng 等人 [10] 结构化信息,这些精炼的信息可进一步应用于下 本文提出了一种专门针对文本生成任务的数据 游任务。这些任务包含问答系统、知识图谱构建、 增强框架。这种框架通过引入字符级噪声和基于 类案匹配等。此外,命名实体识别也可以帮助警 词汇数据库的关键词替换等方法,显著提升了生 员快速熟悉案件、研究串并案规律。 成文本的质量和多样性。 Bogdanov 等人 [11] 利用大 命名实体识别技术早期阶段方法大多基于规 语言模型标注了多领域、多类型预训练数据,采 则和字典以及传统统计机器学习方法。随着深度 用对比学习框架保持编码器独立性,使 125M 参 学习的崛起,以 RNNCRF 和 CNNCRF 为代表的 数的紧凑模型既能适配下游任务微调,又可作为 深度学习方法逐渐成为该领域的主流。基于深度 通用文本编码器。该方法使得小参数模型在少样 学习的 NER(Named Entity Recognition,NER)方 本场景下性能超越同规模模型并媲美大模型。Ye 法范式一般分为四步:首先将原始输入序列进行 等人 [12] 提出了一种基于大语言模型的数据增强 标记预处理;随后通过文本嵌入层,将输入序列 方法 LLM-DA,旨在解决少样本命名实体识别任 转换成固定长度的词向量表示;通过上下文编码 务中数据不足的问题。LLM-DA 增强方法在上下 层,将词嵌入进行语义编码;最后利用标签解码 文层面与实体层面增强了语料多样性。 Santoso 等 层,对标签进行解码。 人 [13] 提出了一种基于大语言模型的低资源命名 随着如 ELMo 和 BERT 预训练模型的出现, 实体识别数据生成方法。该方法通过两步策略生 自然语言模型对丰富的句法和语义信息的理解 成高质量数据:首先从少量标注样本中随机采样
4. 4 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 实 体 类 型 和 名 称 , 利 用 LLM(Large Language 签改进来提升模型性能。ContProto 通过对比训 Model, LLM)生成包含目标实体的多样化句子;然 练将不同类别的实体表示分离,同时对齐源语言 后对生成句子中的实体进行掩码替换,扩展实体 和目标语言的表示,增强跨语言的可转移性。此 库以提升多样性,并通过模板过滤和标签修正减 外,基于原型的伪标签改进利用类别的聚类中心 少噪声。该方法为低成本构建领域自适应命名实 动态调整伪标签,纠正错误标签并提高伪标签的 体识别模型提供了有效路径,尤其适用于标注稀 质量。 YANG 等 [18] 提出了一种基于深度层次化循 缺或类别分布不均衡的实际场景。 环神经网络的序列标注任务迁移学习方法,旨在 以上方法虽然实现相对简单,但是会删除或 通过跨领域、跨应用和跨语言的知识迁移来提升 替换原始文本信息。使用这类方法往往需要在语 目标任务的性能。该方法通过共享源任务和目标 义保留与多样性上取舍。回译则是指一种将文本 任务的隐藏特征表示和部分模型参数,将两个任 通过翻译模型转译到另外一种语言后再翻译回 务的目标函数结合。基于迁移学习的少样本命名 来的数据增强方法。这种方法保证了内容有效性 实体识别方法,虽然可以利用源数据或者源领域 的同时生成了尽可能相似的句子。例如, Lyu [14] 等 模型将源领域与目标领域的知识结合,然而邻域 人提出名为逆向注意力网络的增强方法,这种方 之间的差可能导致迁移效果不佳,训练模型存在 法通过注意力机制将高资源语言的语义特征向 偏移问题 [19] 。 低资源语言对齐,从而增强低资源语言的命名体 1.2 大语言模型在命名实体识别任务上的应用 识别的性能。Jain 等人 [15] 提出了一种用于跨语言 近年来随着大模型的兴起,命名实体识别有 命名实体识别的改进方法, 旨在通过机器翻译系 了新的识别方法。如 Wei 等人 [20] 介绍了一个名为 统将高资源语言的标注数据投影到低资源语言 ChatIE 的 零 样 本 信 息 抽 取 框 架 , 它 通 过 与 中,以提升低资源语言命名实体识别性能。核心 ChatGPT 这样的大型语言模型进行对话来实现。 思想是利用机器翻译系统结合多种匹配策略来 将零样本信息抽取任务转化为多轮问答问题。第 解决跨语言命名实体识别中的实体对齐问题。回 一阶段旨在找出句子中可能存在的元素类型,第 译的方法虽然能保证生成数据保存原文的词义和 二阶段则基于第一阶段提取的元素类型进行链 句子结构,但是由于译文源于原文,这种方法的增 式信息抽取。 WANG 等人 [21] 提出 GPT-NER 方法。 强效果有限。 因为 NER 是一个序列标注任务,而大模型是文 随着迁移学习广泛应用到各个领域,研究者 本生成模型,两者任务之间存在本质差距。大模 开始尝试利用迁移学习的方法解决命名实体识 型在 NER 任务上的表现显著低于监督基线模型。 别低资源的问题。例如,方晔玮等 [16] 通过对社交 GPT-NER 通过将序列标注任务转换为 LLMs 容 媒体和新闻领域语料库进行交叉对比,有效去除 易适应的文本生成任务来弥合这一差距:即将识 错误标注,从而确保生成的弱标注语料库中已确 别输入文本中的实体任务转换为生成带有特殊 定的标签均为正确标注。在此基础上,利用局部 标 记 的 文 本 序 列 任 务 。 Polak 等 [6] 提 出 名 为 标注学习方法对局部标注数据的边缘概率进行 ChatExtract 的方法。它通过一系列设计好的提示 建模。有效提升模型在目标领域的自适应性能的 应用于对话式 LLMs,从论文中提取出材料属性 同时降低领域迁移的成本。Zhou 等 [17] 提出了一 这类缺乏大量数据集的专业名词。该方法通过对 种名为 ContProto 的跨语言命名实体识别自训练 后续问题的一系列回答来确保数据的正确性。这 框架,旨在通过结合对比学习和基于原型的伪标 些后续问题主要解决了 LLMs 提供事实上不准确
5. 5 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 回答的“幻觉”问题。Jung 等人 [22] 通过提示工程优 化将大语言模型应用在生物命名实体识别上。在 自建的数据集上,取得了较好的效果。 Zhan 等人 [23] 测试了 DeepSeek 在生物医学 NLP 中的实际应 用潜力与改进空间,为临床决策支持、药物发现 等场景的模型选型提供了数据支持。 上述基于大模型相关的方法大多停留在题词 工程的层面。为防止大模型出现“幻觉”问题而设 计的多段式对话流程过于复杂,迁移性和定制性 较差。其次,提取的信息普遍缺乏统一格式,需 要进行进一步的处理才能用于下游任务当中。最 后,ChatGPT 为非开源大模型,不可本地运行, 对于公安业务这类保密性要求高的场景不能直 接使用。 鉴于上述问题,本文提出基于开源大模型的 一种两段式微调的大模型信息抽取方案。在第一 段指令微调时让大模型获取以规范 json 格式返回 通用抽取信息的能力。在第二段微调时,在指令 微调数据中融入领域知识,提高细分司法领域信 息抽取的准确率。 2 本文方法 够满足低资源情况下提升大模型特定领域表现 的需求。 因此,本文选择 LoRA(Low-Rank Adaption, LoRA) [24] 的高效微调技术作为微调方法,对预训 练大模型进行优化,以提升司法领域大模型的表 现能力。LoRA 的核心思想是低秩分解,即认为 参数更新过程中存在一个极低维度的维度空间, 微调它的效果和在全参数空间中起到的效果相 同。具体来说,对于预训练权重参数矩阵 W 0  可以使用两个低秩分解的矩阵 A 与 Β 来表示参 数更新  W ,即: W 0   W  W 0  BA B  d  r , A  r  k , r min ( d , k ) (1) 其中 W 0 是被冻结的参数,在训练过程中不接 受梯度更新,而 A 与 Β 可以在训练时改变权重。 在初始化时, A 与 Β 初始化方法不同。 A 参数 矩阵使用随机高斯初始化,而 Β 使用全零初始化。 大语言模型经过微调后,对于线性层 h  W 0 x 前 向传播变为了: h  W 0 x  Δ Wx  W 0 x  BAx (2) 本文使用的高效微调方法 LoRA 的结构如下 图 1 所示。 2.1 大语言模型微调技术 虽然基于大规模数据训练的通用大模型在 多个任务中表现出卓越的性能。然而,这些模型 的通用性需要通过微调(Fine-tuning)技术才能适 应特定任务的需求。微调不仅可以充分利用大模 型的预训练能力,还能在较少数据的情况下提高 模型在特定领域的表现。 经典的微调方法主要指全参数微调,然而这 种方法十分消耗计算资源。而高效参数微调 (Parameter-efficient tuning, PEFT),可以通过只训 练一部分参数达到接近全参数微调的效果,更能 , d  k 图 1 LoRA 结构图 Fig.1 LoRA structure 2.2 案件信息要素抽取方法 2.2.1 数据集 本文使用数据集分为两部分,第一部分是使 通用大模型适配信息抽取任务的指令微调数据 集,第二部分是为验证本文方法有效性的案件信
6. 6 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 息数据集。同时为了使指令微调后的通用信息抽 Schema 数量不一致对模型泛化性能的影响。 取大模型进一步获得领域知识,提高案件信息抽 关于第二部分司法案件数据集。由于公安案 取准确率。从第二部分司法数据集中选取部分作 件相关信息具有保密性和敏感性,案件相关数据 为领域知识的微调数据集。下面对各数据集进行 无法脱离公安内网。而司法文本与公安案件在案 介绍: 件信息实体方面具有相似性。一个司法文本通常 本文第一部分通用指令微调数据集使用 由程序、案件情况、裁判分析过程和判决结果四 IEPile [25] 。IEPile 是在 2024 年 4 月,由浙江大学 大部分组成,大量与案件相关的案件信息实体分 自然语言处理实验室(ZJUNLP)、蚂蚁集团、浙江 布在如下图 2 的司法文书各部分当中。为了验证 大学-蚂蚁集团知识图谱联合实验室联合发布的 本文方法的有效性,我们从司法文书构成的数据 一个大规模、高质量的双语(中英)信息抽取指令 集 LeCaRD(Legal Case Retrieval Dataset) [26] 中选取 微调数据集。IEPile 数据集包含了包含约 200 万 具有代表性的部分进行自行标注。LeCaRD 是一 条指令,约 3.2 亿个 tokens。抽取内容覆盖了多 个类案检索数据集,其案件样本源自裁判文书网 个领域,包括新闻、医学、金融等。该数据集通 上公开的案件司法文本,涵盖 107 种案件类型, 过移除训练与测试集重复出现的文本、删除无效 包含多达 43000 个候选案例。 低质量数据、对所有数据集进行格式统一等数据 为了与传统方法进行比较,并满足实战工作 预处理,整合了包括 CoNLL2023、ACE2005、 中的需求,我们从上述司法文本中手动标注了 14 MSRA、Resume NER 在内的 26 个英文和 7 个中 类细粒度常见案件信息实体,包括被告人、职业、 文的多个信息抽取数据集。此外,为了解决现有 住址、户籍、受害人、犯罪行为、涉案物品、作 IE 数据集在 Schema 定义和指令生成中的任务间 案时间、抓捕时间、犯罪地点、量刑情节、罪名、 Schema 定义不一致、指令生成的正负样本不足的 处罚后果和法律条款。这些实体能够高度概括一 问题,IEPile 引入了一套新的指令生成策略。研 个司法刑事案件的主要信息。我们将采集好的数 究团队采用了基于 Schema 的轮询指令构造方法 据集中的实体标注为传统方法训练所需的 BIO 格 来创建 IEPile 数据集。这种方法首先通过构造语 式,并在标注好的数据集上进行实验,以比较基 义相近的难负样本字典,克服了在传统方法未考 于本文大语言模型的方法与传统方法的性能差 虑语义相似性,可能导致模型难以区分语义相近 异。由于 LeCaRD 中案件类型与数量众多,我们 的标签的问题,确保模型在训练过程中能够更好 根据现实中某市警综平台上常见的案件类型,从 地区分相似但不同的 Schema,提高了模型的泛化 中选取了 1000 份司法文书,标注了共计 24384 个 能力。然后针对每个指令包含的 Schema 数量在 实体。文本涉及到多种犯罪类型,包括如:诈骗、 训练和推理时不一致导致的模型性能下降问题, 寻衅滋事、盗窃、交通肇事等案件。 动 态 控 制 每 个 指 令 中 Schema 数 量 , 避 免
7. 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 7 程序 xx省xxx市xx区人民法院 刑事判决书 (2017)x0203刑初xxx号 公诉机关xxx市xx区人民检察院。 被告 人冯x,男,1993年8月24日出生于xx省xx县,汉族,初中文化,系xxx市信航有限公司模工,户籍所在 地及居住地均为xx省xxx市xx县。因涉嫌犯容留他人吸毒罪,于2017年4月22日被xxx市公安局xx分局刑 事拘留,同年5月5日被执行逮捕。现羁押于xxx市看守所。 被告人赵xx,男,1993年5月30日出生于xx 省xx县,汉族,中专文化,个体经营者,户籍所在地为xx省xxx市xx县,住xxx市。2017年3月28日因吸 食毒品被xxx市公安局xx分局治安拘留十五日。。。。。。 案件情况 xxx市xx区人民检察院指控并经本院审理查明,2017年4月16日凌晨2时许,被告人赵xx、冯x将一 起在酒吧玩的女生张某2(系2004年11月12日出生)、金某(系2004年12月16日出生)带到朋友在xxx 市xx区xx中路50号维亭酒店所开的xx房间,赵xx拿到房卡并续交了房费,后赵xx、冯x在房间内吸食了 赵xx带来的毒品,张某2见状也吸食了毒品。 2017年4月16日18时许,被告人冯x拿其朋友的身份证在 xxx市xx区xx中路50号维亭酒店开了xx房间,冯x、赵xx和金x入住,其中冯x、赵xx在房间内吸食了毒 品。 2017年4月18日晚,被告人冯x持本人身份证在xxx市xx县xx乡xx大学对面的xx宾馆开了406房间, 冯x、赵xx、金x入住`同年4月25日,公安民警在xxx市第二中学对面的蜜果奶茶店内抓获被告人赵 xx。。。。。 { 信息抽取 裁判分析过程 本院认为,被告人冯x多次提供场所给他人(包括未成年人)吸食毒品,被告人赵xx提供场所给 未成年人吸食毒品,二被告人的行为均已构成容留他人吸毒罪,应予处罚。公诉机关指控被告人冯 x、赵xx犯容留他人吸毒罪的事实清楚,证据确实、充分,指控的罪名成立。被告人冯x、赵xx归案后 均能如实供述自己的罪行,认罪态度较好,可以从轻处罚。根据被告人冯x、赵xx的犯罪事实、性 质、情节和对社会的危害程度,依照《中华人民共和国刑法》第三百五十四条、第五十二条、第五十 三条、第六十七条第三款、第六十一条,《最高人民法院关于审理毒品犯罪案件适用法律若干问题的 解释》第十二条第一款第(四)项之规定,判决如下: "被告人": ["冯x","赵xx"], "嫌疑人或受害人职业": ["xxx市信航有限公司模工","个体经营者"], "住址": ["xx省xxx市xx区"], "户籍": ["xx省xxx县"], "犯罪受害人": [], "犯罪行为": ["吸食毒品","容留他人吸食毒品"], "涉案物品": ["毒品"], "作案时间": ["2017年4月16日凌晨2时","2017年4月16日18时","2017年4月19日16时"], "抓捕时间": ["2017年4月26日"], "犯罪地点": ["xxx市xx区xx中路50号维亭酒店","xxx市xx县xx乡陶瓷大学对面的宏庭宾馆","xxx市xx县xx 乡主人翁宾馆"], "量刑情节": ["如实供述自己的罪行","认罪态度较好"], "罪名": ["吸食毒品","容留他人吸毒罪"], "处罚后果": ["有期徒刑一年","罚金人民币3000元","有期徒刑十一个月"], "法律条款": ["《中华人民共和国刑法》第三百五十四条、第五十二条、第五十三条、第六十七条第 三款、第六十一条","《最高人民法院关于审理毒品犯罪案件适用法律若干问题的解释》第十二条第 一款第(四)项"] } 判决结果 被告人冯x犯容留他人吸毒罪,判处有期徒刑一年,并处罚金人民币3000元。 (刑期从判决执行 之日开始计算。判决执行以前先行羁押的,羁押一日折抵刑期一日,即自2017年4月22日起至2018年4 月21日止;罚金已缴纳)。 被告人赵xx犯容留他人吸毒罪,判处有期徒刑十一个月,并处罚金人民币 3000元。 (刑期从判决执行之日开始计算。判决执行以前先行羁押的,羁押一日折抵刑期一日,即 自2017年4月26日起至2018年3月25日止;罚金限判决生效之日起一个月内缴纳)。。。。。。 图 2 Fig.2 案件信息实体分布 Case Information Entity Distribution 2.2.2 数据增强 实体的部分,由于直接使用 EDA 改动可能破坏实 由于通常少样本的情况下用于微调大语言模 体的上下文信息。在句子级别我们使用 SimBERT 型的语料数量有限,为了探索如何更加充分利用 生成相似的文本。SimBERT 的核心能力之一是生 已有数据,本文使用数据增强方法扩展微调文本 成与输入文本相似的文本。在将目标文本输入 数量。由于直接将文本分类领域广泛使用的简单 SimBERT 生成相似的句子后,我们在生成语义相 数据增强 EDA(easy data augmentation,EDA)方法 似的句子上进一步标注实体,扩充了训练数据集。 迁移到命名实体识别领域会破坏标记出来的实体 这种方法能够有效增加数据的多样性,帮助模型 的上下文信息。我们对数据增强方法做出了适应 更好地学习司法文本中的语义特征和上下文信息, 性的改进,分为了实体文本与非实体文本的增强 从而提升实体识别的准确率。 方法。具体来说,本文使用 SimBERT [27] 与 EDA [28] 2.2.3 信息抽取模型微调 两种方法,分别从字符与句两个级别对数据进行 虽然大语言模型在目前许多通用领域超越一 扩充。首先非实体层面,我们对于不涉及实体部分 众传统深度学习模型监督学习的表现,但是在命 的文本,使用 EDA 方法对文本进行字符级随机增 名实体识别领域仍然有一定差距。这是由于大语 强。具体操作如下:①将非案件实体词语替换为同 言模型擅长的是自然语言生成(Natural Language 义词②将随机词汇插入非案件实体部分③交换非 Generation,NLG),而命名实体识别则是自然语言 案件实体部分词④删除非案件实体部分。每一条 理解(Natural Language Understanding,NLU)的序 语料的改动比例不超过 10%。这样的作法模拟了 列标注任务。使用大模型进行命名实体识别任务 实际情况中不同的语言习惯,对数据引入少部分 时,模型除了要按照要求从输入文本中识别出需 噪声,增强了实体识别的鲁棒性。其次,对于包含 要抽取的案件要素,还需要额外处理生成规范
8. 8 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 json 格式的问题。这额外增加了模型在处理序列 其中左一图中 json 格式缺少结尾的“}”。右一 标注问题时的工作量,使得识别效果变差。此外, 则是在抽取 json 信息前错误生成了不相关的内容, 由于训练时语料分布差异,在实际使用时大模型 破坏了 json 格式输出。左二图中,由于训练语料 可能出现各种“幻觉”现象,即倾向将“无”或是错 缺乏案件法律相关知识,LLama 错误地将量刑情 误的信息输出。以上两种问题致使直接使用大语 节与处罚后果抽取为罪名与法条条款,法律条款 言模型抽取案件信息要素效果不尽如人意。下图 则是由于幻觉问题抽取为空。右二的问题是信息 3 是使用 Llama3-8b 版本开源大模型直接进行抽 抽取不全,法律条款只抽取了一半。 取出现的问题示例。 {"被告人": ["阮xx"], "住址": ["广西xx县", "广西xx县", "xx市月山xx鸿电镀厂门口路段 ", "开平市水口镇xx路xx-xx号503房"], "法律条款": ["《中华人民共和国刑法》第二百 七十五条", "《中华人民共和国刑法》第二百六十四条", "《中华人民共和国刑法》 第六十五条第一款", "《中华人民共和国刑法》第六十七条第三款", "《中华人民共 和国刑法》第六十九条", "《中华人民共和国刑法》第六十四条", "《中华人民共和 国" (四)抢劫邮政、电信、通信、广播、电视、电影、出版、印刷、造纸、造纸品、 造船、造机、造飞机、造汽车、造摩{"被告人": ["洪x"], "户籍": ["xx省xx县"], "犯罪 受害人": ["危某"], "犯罪行为": ["强奸", "抢劫"], "涉案物品": ["一部苹果6PLUS16G型 手机", "罗马仁仕充电宝"], "犯罪地点": ["xx市xx区锦祥佳园小区绿化带"],"法律条款 ": ["《中华人民共和国刑法》第二百六十三条", "《中华人民共和国刑法》第二百三 十六条第一款", "《中华人民共和国刑法》第六十七条第三款"]} JSON格式错误 抽取不相关信息 {"被告人": ["刘x"], "嫌疑人或受害人职业": ["农民"], "住址": ["重庆市垫江县"], "犯罪 行为": ["贩卖毒品"], "涉案物品": ["l包甲基苯丙胺", "1粒甲基苯丙胺片剂", "银色苹 果手机"], "量刑情节": ["强奸罪"], "罪名": ["贩卖毒品罪"], "处罚后果": ["《中华人民 共和国刑法》第三百四十七条第四款", "第六十七条第三款", "第五十二条", "第六十 四条"], "法律条款": []} {"被告人": ["张xx"], "法律条款": ["《中华人民共和国刑法》第二百七十五条", " 《中华人民共和国刑法》第二百六十四条", "《中华人民共和国刑法》第六十五条第 一款", "《中华人民共和国刑法》第六十七条第三款", "《中华人民共和国刑法》第 六十九条", "《中华人民共和国刑法》第六十四条", "《中华人民共和国"} 抽取信息错误 抽取信息不全 图 3 Fig.3 未经微调的大模型抽取信息出现的问题 The problems that arise from extracting information using large models without fine-tuning. 表 1 Table 1 实体类别 抽取信息实体定义及示例 Information Entity Extraction Definition and Examples 实体定义 例子 被告人 指在刑事诉讼中被指控犯有罪行,需要接受审判的个人或单位。 金××、李某某、晏某 1 等 职业 指犯罪嫌疑人或受害人在社会中所从事的合法工作或就业情况。 无业、农民、劳务人员等 住址 指犯罪嫌疑人或受害人的居住地址。 户籍 指犯罪嫌疑人或受害人的户籍所在地,通常用于确定管辖权。 上海市宝山区等 受害人 指因犯罪行为而遭受身体、财产或其他损害的人。 陈某、杨某 1 彤等 犯罪行为 违法行为的具体表现。 盗窃、贩卖毒品等 涉案物品 指与犯罪行为直接相关的所有物品,包括作案工具、赃物等。 雅迪牌电动自行车、甲基苯丙胺等 作案时间 指作案人实施犯罪活动从开始到结束的持续时间 xxxx 年 xx 月至 xx 月 抓捕时间 警方或执法机关逮捕犯罪嫌疑人的时间。 xxxx 年 xx 月至 xx 月 犯罪地点 指作案人实施犯罪活动的具体位置描述 虞城县李老家乡范庙村、张官庙村 量刑情节 犯罪行为中需要考虑的特定因素,可能影响量刑。 坦白、认罪认罚、系累犯等 罪名 指根据犯罪行为的性质和法律条款确定的犯罪种类。 盗窃罪、赌博罪 处罚后果 犯罪行为所产生的结果或影响。 判处有期徒刑六个月,罚金 3000 元 法律条款 指适用于该犯罪行为的具体法律条文,用于定罪和量刑。 本市新闸路 XX 弄 XX 号 XX 楼房间内、郑州市 中原区、本市静安区等 《中华人民共和国刑法》第二百三十六条第一 款、第二十三条 针对上述问题,本文提出基于大语言模型指 模型进行命名实体识别。整个识别过程如下图 4 令微调的案件要素命名实体抽取方法以辅助大 所示。首先,本文使用 IEPile 数据集进行第一部
9. 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 分指令微调。通过大规模的信息抽取指令微调数 9 本需要具备的法律背景与专业知识。 据集微调,大语言模型提升了零样本的通用信息 为解决法律方面知识缺失,本文将案件信息 抽取能力。同时,由于微调指令返回的是 json 的 本体融入微调指令,额外标注一组包含案件信息 数据格式,大语言模型根据指令标在进行信息抽 要素的信息抽取数据集进行二次领域知识微调。 取任务时将更倾向生成规范 json 格式,减少信息 此外,使用上文提到的文本增强方法,扩充本部分 抽取额外任务负担。然后针对抽取信息不全、不 的数据集数量。微调后的大模型通过对领域知识 准与“幻觉”现象,由于 IEPile 数据集包含了新闻、 的迁移学习,将减少针对案件信息抽取的“幻觉” 金融、生物医疗等在内的众多领域旨在提升大语 现象,降低案件信息实体抽空抽错发生的概率。 言模型的通用信息抽取能力,缺乏本研究司法文 图 4 Fig.4 基于大模型的案件信息实体识别过程 The process of entity recognition in case information based on large language models 关于指令微调部分,本文微调指令数据集由 应解释,为待识别案件要素做出明确专业领域定 四部分组成。分别是任务描述、本体提示、任务 义或者特定类别的描述。本文抽取的实体类别及 文本、文本实体标签。下面对各部分分别解释: 相应描述如表 1 所示。 任务描述,即大语言模型被指定扮演的角色 任务文本,即需要提取案件信息的训练文本 以及需要完成的任务。比如本文的任务描述:你 材料,文本中包含了大量需要提取的相关司法案 是专门进行司法实体抽取的专家。请从下列任务 件实体。 文本中抽取符合本体提示定义的实体,不存在的 类型返回空值。按照 json 格式返回抽取结果。 本体提示,即要从任务文章中抽取的实体, 及相应解释。提供待抽取的标签列表以及具体相 文本实体标签,即上面任务文本中包含的实 体答案样例。用于作为微调训练时的文本实体标 签。帮助大模型更新参数从目标文本中提取出符 合预期的实体内容。
10. 10 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 改模型权重, 依赖于模型已有的知识和能力的基 f ( q i , D )  ( k 1  1) (4)  | D |  f ( q i , D )  k 1   1  b  b  avgdl    以上公式中 f ( q i , D ) 是指词 q i 在输入案例 D 础之上, 通过少数示例引导模型生成特定任务的 中的词频。 | D | 是文档的长度。 avgdl 可供查询案 文本。 Perez [29] 等、 Lu [30] 等的研究中指出, 改进的 例的平均长度。 k 1 控制词频饱和度, b 控制文档 提示和示例可以显著提升情境学习的效果。 长度归一化的强度。 IDF ( q i ) 的计算公式如下,其 i  1 2.2.4 情境学习 情 境 学 习 (in-context learning,ICL) 该 方 法 由 Radford 于 2019 年首次提出。情境学习可以不更 情境学习的形式化描述为: Score ( D , Q )   IDF ( q i )  n 中 N 为文档总数, n ( q i ) 为含词 q i 的文档总数: Y  P ( X | X 1  , X 2  X n  ;  ) (3) 其中 Y 表示模型输出, P ( ) 表示模型。 X 表  N  n ( q i )  0.5  IDF( q i )  ln   1   n ( q i )  0.5  (5) 示输入语句, X n  表示相似或者相关的示例。使用 由于 BM25 算法是根据词频匹配文本,匹配 ICL 需要在 LLM 输入语句中增加多个与输入语 案件间的犯罪类型往往相似,输出示例可以给大 句相似的语句及参考输出。本文使用领域知识微 语言模型很好的提示。考虑到大语言输出窗口有 调时使用的数据作为情境学习示例。根据输入案 限,本部分召回的文本通过预先处理仅保留包含 件,使用 BM25 算法检索出与任务文本相似的案 实体的语句。据此,大语言模型可以根据相似案 列,流程示例如图 5 所示。 件的输出,提高预期答案的准确度。 其中输入案例 D 对相似案例 Q  { q 1 , q 1 , q n } 的 BM25 得分计算公式为: 被告人刘x,男,1993年10月23日出生于xx市xx县,汉族,初中文化,农民,住xx市xx县。因涉嫌犯贩卖毒品罪,2017 年10月14被捉获,次日被xx市公安局xx区分局刑事拘留 输入案例 BM25 Example1:被告人宋某某,男,1960年11月29日出生,汉族,户籍所在地xx市xx区,住本市。 xx市xx区人民检察院以 xx检诉刑诉(2018)xx号起诉书指控被告人宋某某犯贩卖毒品罪,于2018年1月26日向本院提起公诉 Output:{ 被告人 : 宋某某 , 户籍 : xx市 } Example2:xx市xx区人民检察院指控,被告人于2017年9月24日19时许,经事先电话联系,在其住处本市新闸路XXX 弄XXX号XXX楼房间内,将2包甲基苯丙胺以人民币1200元的价格贩卖给购毒人员朱某某,成交后被执勤民警人赃俱 获 Output:{ 犯罪地点 : 新闸路XXX弄XXX号XXX楼房间内 , 涉案物品 : 甲基苯丙胺 } 情境学习示例 Example3:被告人对公诉机关指控的事实、证据、罪名等均无异议,本院在告知有关法律规定及可能导致的法律后果 后,被告人宋某某表示认罪。 本院认为,被告人宋某某明知是毒品而予以贩卖,其行为已构成贩卖毒品罪,依法应予 刑事处罚。被告人宋某某到案后如实供述自己的罪行,依法可从轻处罚。鉴于其当庭认罪,可酌情从轻罚 Output:{ 量刑情节 : 如实供述罪行 } 图 5 Fig.5 3 情境学习示例 Example of in-context learning 实验结果与分析 为了体现本文针对案件信息要素抽取方法在 型,选取指标最优的进行二次微调。 3.1 评价指标 本文使用命名实体识别领域常用的准确率、 低训练资源情况下的有效性,在从 LeCaRD 上采 召回率以及调和平均数 F1 作为本文的评价指标。 集的司法文本数据集上对比 BERT-BiLSTM-CRF 使用这类指标通常将识别结果分为四类:预测为 等传统深度学习方法。同时为了选取表现最优的 正例实际也是正例的 TP,预测为负例实际却是正 大模型,横向对比了几个国内外著名的开源大模 例的 TN,预测是正例实际却是负例的 FP,以及
11. 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 11 预测为负例实际也是负例的 FN,这四种情况可以 Transformer 模块融合了字符、部首和词汇级别的 用下面的混淆矩阵来表示,表 2 为混淆矩阵: 特征来增强模型的识别效果。 表 2 Table 2 Confusion Matrix 实际表现 混淆矩阵 预测表现 (4)W2NER [32] (unified NER as word-word rela- tion classification):W2NER 模型是一种用于统一 混淆矩阵 1 0 1 TP FN 0 FP TN 准确率 P,召回率 R 以及 F1 的计算公式如下 TP (6) P   100% TP  FP TP (7) R   100% TP  FN 2  P  R (8) F 1   100% P  R 其中准确率 P 的分子代表模型识别正确的实体数 量,分母 TP 加 FP 代表模型识别出来的实体数量。 两者比值描述的是模型成功识别出来的样本的正 确率。召回率 F 的分子与 P 一样代表识别正确的 实体数量,分母 TP 与 FN 相加表示文本实际包含 的实体数量。召回率体现的是模型识别出来的实 体占总实体数的比例。而 F1 是两者的调和平均 值,该指标是一种准确率与召回率平均数的计算 方式。 3.2 实验结果分析 3.2.1 对比模型 在自建数据集上,本文复现了 4 个传统实体 识别方法,参与对比的传统深度学习模型分别是: (1)BERT-BiLSTM-CRF:该模型与 BiLSTM- CRF 的原理相似。模型常应用到众多命名实体识 别的研究中,常被用做基线模型。 (2)RoBERTa-BiLSTM-CRF : RoBERTa 是 BERT 常见的升级改进版。相比 BERT, RoBERTa 在使用了更大规模的数据集同时使用了动态掩码 模式进行模型训练,增加了训练数据的多样性, 使得模型有更好的鲁棒性。 (3)MECT [31] (Multi-Metadata Embedding based Cross-Transformer):该模型的特点在于充分利用 了 中 文 字 符 的 结 构 信 息 , 通 过 使 用 Cross- 命名实体识别的框架。W2NER 将 NER 问题转化 为识别词对之间的关系,通过将句子中的词对表 示为一个二维网格,每个网格单元代表一对词的 关系。通过这种方式,模型可以有效地捕捉词之 间的局部和全局关系。W2NER 模型通过这种创 新的方法有效地处理了 NER 任务中的复杂情况, 如实体的重叠和不连续性,并且在多个基准数据 集上取得了优异的性能。 除了纵向对比了上述传统深度学习模型,本 文还横向比较了国内外不同开源大模型利用本文 方法微调后的抽取效果。 3.2.2 实验结果与分析 下表 3 是使用对比模型与大语言模型进行案 件信息要素抽取的实验结果。其中大模型部分是 仅经过第一轮指令微调后的模型,用来展现获得 信息抽取能力大模型的零样本学习能力。 根据表 3 的实验结果显示,大语言模型的抽 取方法普遍好于低资源训练情况下的传统基线模 型,同时命名实体识别领域中较新的模型 W2NER、 MECT 在也有较好表现。具体分析来说,在传统 深度学习方法中 W2NER 综合识别表现最好,F1 指标达到了 69.83%。相比邻域内常见的基线模型 RoBERTa-BiLSTM-CRF,W2NER 准确率提升了 7.92 个百分点, F1 值提升了 4.41 个百分点,这可 能是由于在数据缺乏的低资源情况下, W2NER 能 够从文本中捕捉到词语间更多的全局关系,提取 出来的实体更加准确。同理,传统方法中综合效 果排名第二的 MECT 模型也是因为该方法融合了 字符、部首和词汇级别的特征,能够从少量的样 本中更加充分的学习到训练语料间的内在关系。 然而大模型部分,经过 IEPile 数据集指令微调的 大语言模型抽取效果普遍高于其他传统深度学习
12. 12 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 模型。实验中表现最好的大模型 Alpaca-2-13B- 不全错误。由于大语言模型内在的通用知识,将 iepile 相比传统方法中效果最好的 W2NER,无论 不相关实体标记出来的情况较少。为了让识别效 是在精度上还是召回率上都有了明显的提升。 果进一步提升,我们在后续的工作中加入了包含 这可能是因为大语言模型通常在更大规模的 案件信息抽取文本的微调以及基于相似案例的提 语料库上进行预训练,因此对语言的理解更加广 词提示。在大模型学习到案件信息相关的范例后, 泛和深入。这种大规模预训练能让模型掌握更丰 模型可以更好的判断实体边界,减少错误发生概 富的语义知识和通用知识,从而更好地理解上下 率同时召回之前未识别的实体。 文。而经过指令微调后的大模型,针对命名实体 由于不同案件类型可能具有不同的语言特征、 识别任务进行了专项的优化,可以更好地将指令 实体分布和语义复杂性,这可能会影响模型的适 和任务目标对齐。 应性和性能。为进一步研究传统模型与大语言模 表 3 Table 3 型在不同案件类型上的效果差异,传统模型选取 各模型信息抽取效果 Information Extraction Effects of Various Models 单位:% 模型 P R F1 效果最好的 MECT、W2NER 以及最有代表性的 BERT-BiLSTM-CRF,大语言模型选择效果最好的 qwen1.5-14b 、baichuan2-13b 与 Alpaca-2-13B, 在按照案件类型分类好的子数据集上分别评估不 BERT-BiLSTM-CRF 61.89 66.73 64.22 RoBERTa-BiLSTM-CRF 64.95 65.90 65.42 MECT 71.02 66.15 68.50 取某市警综平台上显示的 5 种最常见、最有代表 W2NER 72.87 67.04 69.83 性的案件类型为例。识别结果如表 4 所示。在具 llama3-8b-iepile 69.47 66.10 67.74 体的不同类型上,大语言模型相较于传统方法依 qwen1.5-14b-iepile 73.03 71.43 72.22 然优势明显。Alpaca-2-13B 在大多数案件类型方 baichuan2-13b-iepile 71.19 69.52 70.35 71.21 66.25 68.64 73.23 70.72 71.95 言模型在未经过二次微调的情况下就有了较高的 75.04 72.13 73.56 效果,而传统模型也有不错的表现。对于诈骗类、 DeepSeek-R1-Distill- Llama-8B DeepSeek-R1-Distill- Qwen-14B Alpaca-2-13B-iepile 同模型在这些子数据集上的 F1 值。案件类型方 面,由于现实生活中案件出现概率不均,我们选 面性能最佳,与前文结果一致。然而对于不同案 件,大语言模型优势程度不一。例如在危险驾驶、 交通肇事罪上,由于涉及的实体相对固定,大语 此外,传统方法与大模型抽取效果呈现不同 盗窃类这种涉及案件实体较多、案情更加复杂的 特点。传统模型部分,由于数据有限,模型不能 实体。大语言模型由于缺乏相应的知识,识别效 充分学习界定实体的边界,导致实体的识别能力 果则低于平均水准。 与识别准确率都相对较低。对于大语言模型来说, 为了进一步提升大语言模型抽取效果,本文 大语言模型在缺乏邻域知识微调时抽取偏向于保 基 于 第 一 部 分 实 验 表 现 最 好 的 模 型 Alpaca-2- 守。具体来说就是大语言模型倾向于将置信度较 13B-iepile 利用少量数据集标注成的指令,结合基 高的实体识别为正例。这种偏向导致大语言模型 于 EDA 与 SimBERT 的数据增强对大语言模型进 进行信息抽取时准确率普遍高于召回率。观察此 行二次微调,增强对案件信息要素的识别效果。 时模型输出错误的样本,大部分的识别错误是模 最终识别效果如下表 5 所示。此外,为了体现各 型缺乏相应的示例以及领域知识造成的实体抽取 部分对模型的增强效果,本文在表 5 中附上了各
13. 13 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 部分的消融实验。 表 4 Table 4 各模型在不同案件类型上的实体识别 F1 值 F1 scores of different name entity recognition models in various cases 单位:% 模型名称 诈骗罪 寻衅滋事罪 危险驾驶罪 盗窃罪 交通肇事罪 BERT-BiLSTM-CRF 59.28 66.78 63.60 62.22 67.98 MECT 63.43 69.01 68.59 63.29 71.12 W2NER 65.56 71.60 73.47 63.87 70.27 qwen1.5-14b-iepile 67.74 74.74 76.07 68.46 73.78 baichuan2-13b-iepile 65.12 77.57 72.34 67.75 72.59 DeepSeek-R1-Distill- Qwen-14B 65.51 75.57 76.64 69.23 77.50 Alpaca-2-13B-iepile 70.67 77.14 79.31 71.34 78.86 根据上述实验结果显示,Alpaca-2-13B-iepile 在通过二次指令微调以及相关案例提示后,抽取 数值都有一定提升。其中经过领域知识指令微调 13B(w/o 数据增强) Chinese-Alpaca-2-13B( ICL+Tune+数据增强 ) 90.87 89.78 90.32 后的提升最为明显,准确率提升了 11.19 个百分点, 4 总结展望 召回率增长了 10.33 个百分点。在经过数据增强后, 4.1 总结 准确率提升了 12.35 个百分点, 召回率增长了 12.07 本文针对公安案件信息识别需求,提出了一种 个百分点。此外,在不进行微调时,通过情境学习 低资源情况下利用大模型进行信息抽取的命名实 的少数示例的指导,可以增加识别的效果。F1 值 体识别方法。充分利用大语言模型的泛化学习能 提升了 3.86 个百分点。最终当结合微调、情境地 力,使用 IEPile 数据集以及自建领域知识数据集 学习与数据增强后,模型效果达到了最佳,F1 值 微调出针对案件信息抽取的大模型,从司法案件 相比原来结果提升了 16.76 个百分点。 文本中抽取返回包含十四个案件信息实体的结构 表 5 消融实验结果 化数据。 Table 5 Ablation experiment results 实验结果表明,本文提出的基于大语言指令 单位:% 微调的结构化案件信息抽取方法对比传统借助深 模型 P R F1 度学习模型具有显著优势。在缺少标注数据集的 Chinese-Alpaca-2- 情况下,传统方法普遍抽取效果普遍不佳。而大 13B(w/o ICL+Tune+ 数 75.04 72.13 73.56 模型具有更好的泛化能力,在经过少量标注数据 据增强) Chinese-Alpaca-2- 微调后能够接近有大量数据监督训练模型的准确 13B(w/o 数 据 增 强 78.39 76.48 77.42 度 [2] 。此外,在面向的实际应用过程中,传统方法 +Tune) 会面对到的问题不仅仅停留在训练数据量多少的 Chinese-Alpaca-2- 13B(w/o 数 据 增 强 86.23 82.46 84.30 层面。低资源情况还涵盖多个方面。比如,在实 +ICL) 际标注过程中由于标注人力资源的缺失,传统深 Chinese-Alpaca-2- 87.39 84.20 85.77 13B(w/o ICL) 度学习方法需要的数据集成本更大。这是由于 Chinese-Alpaca-2- 88.31 86.92 87.61 BIO 格式复杂,需要专门的标注软件(如 doccano、
14. 14 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 label studio 等)将原文按文字是否属于实体标注 为 B-标签、I-标签、O-标签的形式,额外增加了 标注负担。标注人员需要额外学习标注工具的使 用方法,在部署好标注工具的电脑上才能标注数 据而大语言模型除了微调数据需求量少外,标注 成的指令格式十分明确,无需专门的训练就能在 普通的文本编辑器上标注,大大减少了标注难度 进而减少了标注成本。 综上,本文提出的案件信息抽取垂直领域的 大模型方法在效率、准确率、资源消耗量、使用 便捷性等方面,相较传统深度学习方面有显著优 势。能够便利基层警务对日常采集的案件信息进 行抽取分析,提高科技兴警水平。 4.2 展望 虽然本文研究取得较好的实验结果,但是依 然存在一定的问题以及局限性值得进一步探讨和 解决。 首先,由于现实条件中计算资源的限制,本 文选取的大模型参数量大小停留在 14B 以下。在 未来研究中,有希望可以通过量化、蒸馏学习等 方法降低模型的算力需求,使用更大参数规模的 大语言模型提升本方法的抽取效果。 其次,如何有效利用从案件中抽取的信息仍 然是一个重要的研究方向。未来基于本文提取的 信息,可以用于罪模式识别、犯罪规律建模以及 犯罪预防等深层次分析。例如,参考刘权 [33] 、曹 发鑫 [34] 和李林睿 [35] 等相关工作的做法。使用本文 提出的命名实体识别方法可以替代上述工作中案 件要素的实体识别模块,便于迁移的同时训练开 销较小。通过抽取职业、住址、犯罪地点、作案 时间、罪名、涉案物品、处罚后果、法律条款等 案件要素重构案件信息,可以匹配案件要素相似 的案件。在实际应用中,公安机关可以根据检索 犯罪要素相似的案件学习到的背后隐藏的犯罪模 式,反哺类似案件的侦查。 最后,在知识抽取方面,目前的方法尚未囊 括所有案件的关键信息。当前的工作主要集中在 文本数据的分析和应用,而忽略了其他模态信息 的潜力。因此,未来的研究可以考虑引入多模态 技术,以构建更为全面的案件知识图谱。通过整 合视频、图像、音频等多种数据源,可以实现案 件信息的多模态融合。这不仅能够丰富案件信息 的表示方式,还能提升信息的全面性和准确性, 为案件的管理和分析提高效率。 综上所述,当前研究仍有许多领域值得继续 探索。未来可以通过从上述方面切入进一步拓展 本研究,推动公安信息化从而赋能科技兴警战略。 参考文献: [1] 马忠红.论刑事案件的构成要素[J].中国人民公安大学学 报(社会科学版), 2012, 28(05): 91-99. MA Z H. The Constitutive Elements of a Criminal Case[J]. Journal of Chinese People’s Public Security University (So- cial Sciences Edition), 2012, 28(05): 91-99. [2] 陈剑, 何涛, 闻英友, 等. 基于 BERT 模型的司法文书实 体 识 别 方 法 [J]. 东 北 大 学 学 报 ( 自 然 科 学 版 ), 2020, 41(10): 1382-1387. CHEN J, HE T, WEN Y Y, et al. Entity Recognition Method for Judicial Documents Based on BERT Model[J]. Journal of Northeastern University (Natural Science), 2020, 41(10): 1382-1387. [3] 鲍彤, 章成志. ChatGPT 中文信息抽取能力测评——以 三种典型的抽取任务为例 [J]. 数据分析与知识发现 , 2023, 7(09): 1-11. BAO T, ZHANG Z C. Extracting Chinese Information with ChatGPT:An Empirical Study by Three Typical Tasks [J]. Data Analysis and Knowledge Discovery, 2023,7(9): 1-11. [4] 冯钧, 畅阳红, 陆佳民, 等. 基于大语言模型的水工程 调度知识图谱的构建与应用 [J]. 计算机科学与探索 , 2024, 18(06): 1637-1647. FENG J, CHANG Y H, LU J M, et al. Construction and Ap- plication of Knowledge Graph for Water Engineering Scheduling Based on Large Language Model[J]. Journal of Frontiers of Computer Science & Technology, 2024, 18(06):1637-1647. [5] 裴炳森, 李欣, 吴越. 基于 ChatGPT 的电信诈骗案件类 型 影 响 力 评 估 [J]. 计 算 机 科 学 与 探 索 , 2023, 17(10): 2413-2425. PEI B S, LI X, WU Y. Influence Evaluation of Telecom Fraud Case Types Based on ChatGPT[J]. Journal of Fron- tiers of Computer Science & Technology, 202317(10): 2413-2425. [6] POLAK M P, MORGAN D. Extracting accurate materials data from research papers with conversational language
15. 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 models and prompt engineering[J]. Nature Communica- [7] via Machine Translation for Cross-Lingual NER[C]// Pro- 田萍芳, 刘恒永, 高峰, 等. 基于大语言模型的本体提 ceedings of the 2019 Conference on Empirical Methods in 示指导的司法命名实体识别[J/OL]. 武汉大学学报(理学 Natural Language Processing and the 9th International Joint 版 ),1-13[2024-12-16]. https://doi.org/10.14188/j.1671- Conference on Natural Language Processing (EMNLP- TIAN P F, LIU H Y, GAO F, et al. Judicial Named Entity [16] 方晔玮, 王铭涛, 陈文亮, 等. 基于自动弱标注数据的 Recognition by Ontology Prompt Guidance Based on Large 跨领域命名实体识别[J]. 中文信息学报, 2022, 36(3): 73- Language Model[J]. Journal of Wuhan University (Natural 81. Science Edition), IJCNLP). 2019: 1083-1092. 1-13[2024-12-16]. https://doi. FANG Y W, WANG M T, CHEN W L, et al. Cross domain org/10.14188/ j.1671-8836.2024.0027. NER using automatically partial-annotated data[J]. Journal 李春楠, 王雷, 孙媛媛, 等. 基于 BERT 的盗窃罪法律文 of Chinese Information Processing, 2022, 36 (3): 73-81. 书命名实体识别方法[J]. 中文信息学报, 2021, 35(08): [17] ZHOU R, LI X, BING L, et al. Improving Self-training for 73-81. Cross-lingual Named Entity Recognition with Contrastive LI C N, WANG L, SUN Y Y, et al. BERT Based Named and Prototype Learning[C]//Proceedings of the 61st Annual Entity Recognition for Legal Texts on Theft Cases[J]. Jour- Meeting of the Association for Computational Linguistics nal of Chinese Information Processing. 2021, 35(8): 73-81. [9] [15] JAIN A, PARANJAPE B, LIPTON Z C. Entity Projection tions, 2024, 15(1): 1569. 8836.2024.0027. [8] 15 (Volume 1: Long Papers). 2023: 4018-4031. 曾兰兰, 王以松, 陈攀峰. 基于 BERT 和联合学习的裁 [18] YANG Z L, SALAKHUTDINOV R, COHEN W W. Trans- 判 文 书 命 名 实 体 识 别 [J]. 计 算 机 应 用 , 2022, 42(10): fer learning for sequence tagging with hierarchical recurrent 3011-3017. networks[C]//Proceedings of the 5th International Confer- ZENG L L, WANG Y S, CHEN P F. Named entity recogni- ence on Learning Representations,2017:1-10. tion based on BERT and joint learning for judgment docu- [19] 丁建平, 李卫军, 刘雪洋, 等. 命名实体识别研究综述 ments[J]. Journal of Computer Applications, 2022, 42(10): [J]. 计算机工程与科学, 2024, 46(07): 1296-1310. 3011-3017. DING J P, LI W J, LIU X Y, et al. A review of named entity [10] FENG S Y, GANGAL V, KANG D, et al. GenAug: Data Augmentation for Finetuning Text Generators[C]//Pro- recognition research[J]. Computer Engineering & Science, 2024, 46(07): 1296-1310. ceedings of Deep Learning Inside Out (DeeLIO): The First [20] WEI X, CUI X, CHENG N, et al. Chatie: Zero-shot infor- Workshop on Knowledge Extraction and Integration for mation extraction via chatting with chatgpt[J]. arXiv pre- Deep Learning Architectures. 2020: 29-42. print arXiv: 2302.10205, 2023. [11] BOGDANOV S, CONSTANTIN A, BERNARD T, et al. [21] WANG S, SUN X, LI X, et al. Gpt-ner: Named entity recog- NuNER: Entity Recognition Encoder Pre-training via LLM- nition via large language models[J]. arXiv preprint arXiv: Annotated Data[C]//Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024: 11829-11841. [12] YE J, XU N, WANG Y, et al. LLM-da: Data augmentation via large language models for few-shot named entity recog- nition[J]. arXiv preprint arXiv:2402.14568, 2024. [13] SANTOSO J, SUTANTO P, CAHYADI B, et al. Pushing the limits of low-resource NER using LLM artificial data generation[C]//Findings of the Association for Computa- tional Linguistics ACL 2024. 2024: 9652-9667. [14] LYU S, SUN L, YI H, et al. Converse Attention Knowledge Transfer for Low-Resource Named Entity Recognition[J]. arXiv preprint arXiv:1906.01183, 2019. 2304.10428, 2023. [22] JUNG S J, KIM H, JANG K S. LLM based biological named entity recognition from scientific literature[C]//2024 IEEE International Conference on Big Data and Smart Computing (BigComp). IEEE, 2024: 433-435. [23] ZHAN Z, ZHOU S, ZHOU H, et al. An evaluation of DeepSeek Models in Biomedical Natural Language Pro- cessing[J]. arXiv preprint arXiv:2503.00624, 2025. [24] HU E J, WALLIS P, ALLEN-ZHU Z, et al. LoRA: Low- Rank Adaptation of Large Language Models[J]. arXiv pre- print arXiv: 2106.09685, 2021. [25] GUI H, YUAN L, YE H, et al. IEPile: unearthing large-scale
16. 16 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 schema-conditioned information extraction corpus[C]//Pro- [31] WU S, SONG X, FENG Z. MECT: Multi-Metadata Embed- ceedings of the 62nd Annual Meeting of the Association for ding based Cross-Transformer for Chinese Named Entity Computational Linguistics (Volume 2: Short Papers). 2024: Recognition[C]//Proceedings of the 59th Annual Meeting of 127-146. the Association for Computational Linguistics and the 11th [26] MA Y, SHAO Y, WU Y, et al. LeCaRD: a legal case re- trieval dataset for Chinese law system[C]//Proceedingsof the 44th international ACM SIGIR conference on research and development in information retrieval. 2021: 2342-2348. [27] 苏剑林. 鱼与熊掌兼得:融合检索和生成的 SimBERT 模 型 [EB/OL]. [2022-05-18]. https://spaces.ac.cn/ar- chives/7427. SU J L. Fish and Bear’s Paw: SimBERT Model for Fusion of Retrieval and Generation [EB/OL].[2022-05-18]. https:// spaces. ac.cn/archives/7427. [28] WEI J, ZOU K. EDA: Easy Data Augmentation Techni- International Joint Conference on Natural Language Pro- cessing (Volume 1: Long Papers). 2021: 1529-1539. [32] LI J, FEI H, LIU J, et al. Unified named entity recog-nition as word-word relation classification[C]//proceedi-ngs of the AAAI conference on artificial intelligence. 2022, 36(10): 10965-10973. [33] 刘权, 余正涛, 高盛祥, 等. 融合案件要素的相似案例 匹配[J]. 中文信息学报, 2022, 36(11): 140-147. LIU Q, YU Z T, GAO S X, et al. Incorporating case ele- ments for case matching[J]. Journal of Chinese Information, 2022, 36(11): 140-147. ques for Boosting Performance on Text Classification [34] 曹发鑫, 孙媛媛, 王治政, 等. 面向借贷案件的相似案 Tasks[C]//Proceedings of the 2019 Conference on Empirical 例 匹 配 模 型 [J]. 计 算 机 工 程 , 2024,50(01): 306- Methods in Natural Language Processing and the 9th Inter- 312.DOI:10.19678/j.issn.1000-3428.0066055. national Joint Conference on Natural Language Processing CAO F X, SUN Y Y, WANG Z Z, et al. A similar case match- (EMNLP-IJCNLP). Association for Computational Lin- ing model for lending cases[J]. Computer Engineering, 2024, guistics, 2019. 50(01): 306-312. [29] PEREZ E, KIELA D, CHO K. True few-shot learning with [35] 李林睿, 王东升, 范红杰. 基于法条知识的事理型类案 language models[J]. Advances in neural information pro- 检索方法[J]. 浙江大学学报(工学版), 2024, 58(07): 1357- cessing systems, 2021, 34: 11054-11070. [30] LU Y, BARTOLO M, MOORE A, et al. Fantastically Or- dered Prompts and Where to Find Them: Overcoming Few- Shot Prompt Order Sensitivity[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Lin- 1365. LI L R, WANG D S, FAN H J. Fact-based similar case re- trieval methods based on statutory knowledge[J]. Journal of Zhejiang University(Engineering Science), 2024, 58(07): 1357-1365. guistics (Volume 1: Long Papers). Association for Compu- tational Linguistics, 2022. 王劲滔(2000—),男,扬州,硕士研究生,CCF 学生会员,主要研究方向为大语言模型、自然语言处理等。 WANG JINGTAO, born in 2000, M.S. His research interests include Natural Language Processing , Large Language Model, etc.
17. 王劲滔 等:基于大语言模型指令微调的案件信息要素抽取方法研究 17 孟琪翔(1999—),男,徐州,硕士研究生,主要研究方向为深度学习、自然语言处理等。 MENG QIXIANG, born in 1999, M.S. His research interests include Natural Language P rocessing , Deep Learning, etc. 高志霖(2000—),男,徐州,硕士研究生,主要研究方向为深度学习、计算机视觉等。 GAO ZHILIN, born in 2000, M.S. His research interests include Computer Vision, Deep Learning, etc. 卜凡亮(1965-),男,江苏省人,博士,教授,博士生导师,主要研究方向为安全防范工程。 BU FANLIANG(1965—),Ph.D., professor, Ph.D. supervisor. His research interests include Engineering of security and protection system.

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.143.0. UTC+08:00, 2025-04-23 08:26
浙ICP备14020137号-1 $Map of visitor$