编者荐语
本文提出了一种基于大模型生成证据的目标导向、以文件为基础的对话方法,创新设计并研发了文档内容检索和重新排序、微调和推理以及证据生成技术,攻克了传统方法在语义深度理解、长文本信息整合方面的技术瓶颈。该成果可实现人机对话系统向知识密集型场景的深入拓展,对智能客服、专业领域问答等应用场景具有显著价值。论文已在国际学术期刊《Data & Knowledge Engineering》发表。
一种大模型证据生成的文档会话
方法研究
亚信科技(中国)有限公司
摘要:针对文档会话的深度语义理解和长文本处理等挑战,本文提出了一种基于使用大模型生成证据的目标导向、以文件为基础的对话方法(DGDE,Document-Grounded Dialogue based on Evidence Generation),设计研发了文档内容检索和重新排序、微调和推理以及证据生成创新技术。实验结果显示,相较于传统方法,采用 LLMs 与向量空间模型相结合或与关键信息匹配技术相结合的方法进行比较,所提方法的准确率(Accuracy )分别提高了21.91%和12.81%,全面性(comprehensiveness)分别提高了10.89%和69.83%,连贯性(coherence)分别提高了38.98%和53.27%,完整性(completeness)分别提高了16.13%和36.97%。此外,进行的消融分析表明,证据生成方法对全面性和完整性有较大贡献。
一
引言
(一) 业务需求概述
基于文档的对话(DGD)是一种高效的知识管理技术,旨在检索特定领域文档来响应用户查询,辅助内容检索和文档管理。此方法强调理解文档内容和用户意图,以确保提供精确答案。如图1(c)所示,在 DGD 系统中,客户服务代表需先解读和总结相关文档信息,才能解答用户问题。
图1: 文档对话示例
现有技术通过关键字提取和向量空间模型来解析文档内容并确定问题意图,但面临语义理解等挑战。LLMs 提升了上下文学习和推理能力,显著改善了文本理解和答案生成。LLMs 增强了问题理解的精确性,并促进了更符合用户需求的答案生成。然而,可能产生不准确或无关的内容,即“幻觉”,因此需要辅助方法来确保其输出的可靠性。
本文提出了一种名为 DGDE 的文档对话方法,利用 LLM 证据生成,通过问题更正和引文信息修改来验证答案并减轻幻觉。同时,优化了检索、重排、LLM 微调和推理过程。实验结果显示,与 LLM 结合向量空间模型或关键信息匹配的方法(图 1(a) 和图 1(b))相比,DGDE 在多个评估指标上取得了显著提升。消融分析也证明了DGDE 在各个环节的积极效果。
二
相关研究
在 DGD 领域,传统方法主要依赖关键词匹配和概率检索模型进行信息检索和排序,随后使用生成模型来构造答案。例如,BM25 检索器常用于文档查询处理,但这种方法需要人工提取特征和构建排序规则,增加了人工负担,并且检索准确性受限于主观判断和经验。随着预训练模型的发展,DGD 研究演化为三种主要方法,见图 2。
图2:DGD 任务实现方法
基于表示的方法,这类方法通过构建查询和文档编码器来获取向量表示,并结合大型模型以回答问题。DeepCT、ReBERT、DPR 等向量空间模型常用于文本再现,通过预先计算和存储文档索引来提高检索效率。但这些方法受预训练模型参数大小和知识范围限制,通常需额外训练和微调。
图3: 基于表示的方法示意图
基于交互的方法,受机器阅读理解和目标导向对话系统启发,这类方法将对话任务分解为子任务,如对话状态跟踪、策略学习和生成。相关模型包括 BERT、BART、T5,但存在误差传播问题,且需注释数据微调。
图4:基于交互的方法示意图
大语言模型驱动的方法,在文档对话中,利用大型语言模型的上下文学习和推理能力,通过分割文档内容并使用向量空间模型进行嵌入存储,以增强对话系统的理解和生成能力。流行的应用或框架如 LangChain、Auto-GPT、AutoChatin 均基于此方法。LLM 还可作为问答解码器,结合 CoT 提示和检索知识以提高性能。尽管这种方法市场占主导,但仍需综合策略解决“幻觉”问题。
图5:大语言模型驱动的方法
三
基于大模型证据生成的
文档会话方法(DGDE)
在 DGD 中,模型可信度至关重要,证据生成是缓解“幻觉”的有效手段[2,3]。DGDE 将 DGD 任务分为三部分:基于向量空间模型匹配和文本标签分类匹配的检索和排序,基于轮次代理响应的微调与推理,以及基于问题修正的证据生成,图 6 给出 DGDE 的实现逻辑图。
图6:DGDE 实现逻辑
(一)任务一:基于向量空间模型匹配和文本标签分类匹配的检索和重新排序
文本序列检索和重排任务通过分析问题意图从文档中筛选相关数据,提升后续任务效率。受 MF-RA 方法启发,融合了向量空间模型匹配和文本标签分类匹配两个组件,与单一依赖方法不同,图 7 给出 Retrieval & Reranking 的细节实现。
图7: 基于向量空间模型匹配和文本标签分类匹配的检索和重新排序
文档文本序列检索与排序任务,将文本向量嵌入任务和文本分类匹配任务合并求最优解:
其中 为超参数,可以通过消融实验得到,取值范围为 0 到 1 之间的小数,如果取 0,则文档文本序列检索与排序任务只由分本分类匹配任务得到,如果取 1,则文档文本序列检索与排序任务只由文本分类匹配任务得到。和
分别为文本片段和问题文本向量化处理后的序列,和
分别为文本片段和问题文本对应的标签,和
分别为文本向量匹配和文本标签匹配。
文档文本序列检索与排序任务最重由计算,按得分从高到低排序取 Top N 作为相关文本片段,N 作为可调节参数。
(二)任务二:基于每轮代理的响应进行微调和推理
在大模型微调训练时,采用了一种基于每轮 Agent 回答的损失计算方法。数据准备阶段,我们进行了以下优化:引入轮次信息、特殊 token,并实施了剔除无关对话内容的数据增强策略。该方法允许模型一次性处理完整的多轮对话,并同步预测各轮 Agent 的回答,计算每轮回答的损失以更新模型权重。如图 8 所示,对于包含 3 轮交互的对话数据,模型需同时预测 Agent1 至 Agent n 的回复。
图8:基于每轮 Assistant 回答的损失计算方法
图9:问题修正的提示模版
图10:最终答案的提示模版
(三)任务三:基于问题修正的证据生成
面对模糊不清的问题,首轮预测往往难以涵盖所有可能的解释和答案。因此,如图 11 所示,本研究提出了一种证据生成方法,涵盖问题修正、证据生成和答案生成三个阶段。问题修正包括步骤 1 至 5,证据生成为第六步,而答案生成则是第七步。
图11:文档会话证据生成方法流程
问题修正部包括 1~5 步骤,分别为:
第一步,准备用户问题(标记为q)和文档文本片段集(P),使用文档文本序列检索与排序任务;
第二步,由文档文本序列检索与排序任务,从文档文本片段集 p 中检索到相关的m个文本片段,标记为 {pn,pn+1,…,pn+m};
第三步,处理 {pn,pn+1,…,pn+m} 为大语言模型推理的背景信息,并于 q 结合,按大语言模型提示推理方法设计提示模版作为大语言模型输入信息;
第四步,使用微调后的大语言模型,输入第三步得到的信息,由大语言模型推理得到原始问题的修正问题 使得修正问题
能够更匹配背景信息 {pn,pn+1,…,pn+m};
第五步,更新 为 q,循环重复第一步到第五步,如果重复次数达到最大设定次数,则循环中止。其中最大设定次数作为参数,通过预设或者消融实验得到。
第六步,当问题修正部分循环重复中止时,统计中每个元素的频次,取频次最高的 Top N 作为证据,N作为参数,通过预设或者消融实验得到;
第七步,组合原始问题 q 和第六步生成的证据 {pj,pj+1,…,pj+n},并使用 3.2.2 章节的大语言模型提示推理方法设计提示模版,使用微调后的大语言模型对原始问题基于提示信息进行提问,得到的答案为最终答案。
对应的算法伪代码见方法 1:
四
实验结果与分析
(一) 实验数据说明
使用Doc2dial数据集[4],Doc2dial 是基于相关文档的面向目标的对话数据集。该数据集包括4793个带注释的对话,平均 14 个轮次,来自四个领域的 487 个文档,该数据集涵盖了信息寻求对话中的各种对话场景。同时 Doc2dial 数据集也是 ACL-IJCNLP2021 指定数据集。
(二) 评估方法说明
DGD 是用户和 LLM 之间的交互过程。这是一个典型的生成任务,常用的评估指标包括 BLEU、ROUGE、METEOR。不同的评估指标侧重于不同的维度。表 1 提供了每个评估指标的评估维度。
表1:评估维度说明
(三) 整体实验结果及分析
本文采用的比较方法包括向量空间模型 M3E 和 Text2Vec,它们用于文本检索和重新排序,使用与 DGDE 相同的 LLM(基于开源半年多,社区性能相对较好,选择 vicuna-13B-16k、Qwen-14B-Chat、Baichuan2-13B-Chat)进行答案生成,分别命名为 DGD1 和 DGD2。关键信息匹配文档会话方法选择 BPE+BM25 和 Ngram+BM25 方法做文本检索,同样使用上述大模型做答案生成,标记为 DGD3 和 DGD4 表 2 列出了总体实验表现。
表2:整体实验表现
结果表明,DGDE 比其他方法具有显著的改进。根据 BLEU 指标,随着 n 值的增加,DGDE 的性能仍然优于其他方法,表现出更高的准确性和连贯性。ROUGE 指标显示,除 ROUGE -l-p 和 ROUGE -1-p 的值略低于 DGD3 且几乎没有变化外,其他指标均显示出显着改善,表明 DGDE 在理解和完整性方面保持了优势。Meteor 指标显示,DGDE 的得分高达 41%,而其他方法中最好的只有 37.48%。它表明 DGDE 在准确性、连贯性、全面性和完整性方面具有显著优势。
如表 3 所示,DGDE 与将 LLM 与向量空间模型相结合的方法(DGD1 和 DGD2)或 LLM 与关键信息匹配技术相结合的方法(DGD3 和 DGD4)相比,准确性平均提高了 21.91% 和 12.81%。在全面性方面,分别提高了 10.89% 和 69.83%。对于连贯性,分别提高了 38.98% 和 53.27%。在完整性维度上,分别提高了 16.13% 和 36.97%。
表3:分评估维度的实验结果
进一步分析,与预训练模型相比,DGDE 在准确性方面显示出更显着的改进。预训练模型的有效性受到微调或持续训练的限制,而关键信息匹配方法不需要使用特定数据进行适应训练。与关键信息匹配相比,DGDE 在全面性方面也表现出更明显的改进。尽管预训练模型尚未使用相关语料库进行微调或进一步训练,但它们已经学到了更多的一般信息,从而产生了更全面的结果。DGDE 结合了预训练和关键信息匹配,从而与其他方法相比提高了准确性和全面性。在连贯性方面,与两种方法相比,DGDE 的改进超过 37%。然而,由于相同的 LLM 用于生成输出,因此连贯性的提高可能会受到 LLM 微调的影响,需要消融分析。
总之,DGDE 在准确性、全面性和连贯性方面优于其他方法。完整性是一个综合价值,而 DGDE 在这方面表现最好。
(四) 消融实验/归因分析
DGDE 方法在检索和重新排序、LLM 微调和证据生成等方面与其他方法的消融分析在表 4 中列出。根据表 2,考虑到微调的成本,选择性能最佳的 vicuna-13B 作为代表。“消融-证据生成”是指除不使用证据生成外,所有方法都是相同的。“LLM 的消融微调”是指除没有对 LLM 进行微调的模型外的所有方法都是相同的。“向量检索模型的消融优化”是指除了不使用向量检索模型的选项外,所有方法都是相同的。
表4:归因分析结果
观察精度,发现 LLM 的微调有 11.61% 的绝对提升影响,导致精度提升最明显。在全面性方面,证据生成绝对提高了 27.35%,取得了最显着的改进。在连贯性方面,观察到 LLM 微调和证据生成的绝对改进分别为 9.18% 和 9.39%,导致生成结果的连贯性得到更明显的改善。最后,在完整性方面,LLM 的微调和证据生成的影响分别为 14.54% 和 14.60%,表明生成结果的完整性有了更明显的提高。尽管检索和重新排名在每个维度上都没有显著影响,但它们仍然在所有维度上都有影响。
从定性的角度来看,在对 LLM 进行微调后,它表明生成结果的准确性和全面性有了显著提高。证据生成方法通过与 LLM 的多次交互逐渐纠正问题并找到更相关的文本片段,从而产生更全面、更完整的答案。检索和重新排名方法结合了文本维度相似度匹配和关键信息匹配。它对准确性、全面性、连贯性和完整性有影响,但不如其他因素重要。因此,在实践中,优先考虑证据生成和微调 LLM 可能是改进基于文档的对话的有效方法,其次是优化向量检索模型。
(五) 子任务表现及分析
1. 检索与重新排序任务表现与分析
向量相似度匹配的全面性与文本关键信息匹配的准确性,从而从理论上提高其有效性。为了比较其性能,选择了四个模型,即 Sentence-bert、CoROM-Base、M3E 和 Text2Vec。提供了前 N 个文本片段,并通过将它们与标准文本片段进行比较来计算它们的召回率。实验结果如图 12 所示。在 R@1 到 R@9 方面,它显示出优于其他方法的改进,与其他方法中观察到的波动模式相比,DGDE 方法随着 N 的增加而表现出更平滑的增长趋势。
图12:检索与重新排序任务表现
由于 DGDE 方法在将文本分类合并到向量空间模型方面的创新性,它在理论上具有可转移性。为了分析其可传递性,将 DGDE 方法应用于四个向量模型:Sentence-bert、CoROM-Base、M3E 和 Text2Vec。结果见表 5。与原始模型相比,我们添加了后缀 “_opt” 来表示应用了 DGDE 方法的模型。结果表明,迁移后 Sentence-bert 表现出全面的改善,尤其是 R@1 的相对增长为 11.3%。CoROM-Base 仅在 R@2 方面表现出改善。M3E 在 R@1 中得到了改进,而 Text2Vec 在除 R@1 外的所有指标上都显示出改进。此外,R@1 到 R@9 的平均值也有所提高,R@1 和 R@2 的平均值都有显著的改善。这表明 DGDE 方法具有可转移性。
表5:检索与重新排序任务迁移性分析
2. 证据生成任务分析
证据生成涉及与检索和重新排序任务以及 LLM 推理的多次交互迭代。它需要重复迭代,直到触发阈值以停止循环。由于 LLM 的“幻觉”问题以及检索到的段落会随着查询的变化而逐渐扩展,因此更多的迭代不一定会带来更好的结果。如果迭代次数过多,修改后的问题可能会偏离原始问题的语义。另一方面,如果迭代太少,可能无法从段落中提取有价值的知识。因此,找到一个平衡点至关重要。在实验中,分析了运行循环 1 到 6 次迭代的效果。如图 13 所示的实验结果表明,当循环运行 3 次迭代时,可以获得最佳性能。随着迭代次数的增加,生成的结果会逐渐恶化。
图13:证据生成任务表现
3. 大模型微调任务分析
微调 LLM 对准确性和答案的连贯性有重大影响。为了进一步分析微调对结果生成的准确性和连贯性的影响,选择了 Vicuna13B 进行微调,并使用各种外部空间模型比较了微调前后的性能,以进行检索和重新排序。表 8 显示了 Sentence-bert 、 CoROM-Base 、 M3E 和 Text2Vec 模型在微调前后的性能。
表6:大模型微调任务表现
结果表明,Sentence-bert 模型在 BLEU 1、BLEU 2 和 BLEU~ 方面的表现不如预期。但是,性能之间的差异微调前后相对较小。另一方面,其他三个模型在微调后表现出一致的性能改进模式。这些发现表明,微调 LLM 通常会提高生成结果的准确性和连贯性,但一些特定情况(如 Sentence-bert 模型)的影响不太明显。
4. 检索数量与 QA 关联分析
N 值越大,将提供更全面的知识,并导致更准确的结果。然而,实验分析表明,情况并非总是如此。存在一个最佳数量的输入段落,可以产生最好的问答效果,而输入太少或太多会导致更差的结果。图 14 说明了基于文档的对话与向量重新评估的数量之间的关系。它比较了 Vicuna-13B-16k、Qwen-14B-Chat 和百川 2-13B-Chat(分别记为“Vicuna”、“Qwen”和“Baichuan2”)的性能。使用的评估指标是 Meteor。可以观察到,当使用前 3 个段落作为输入时,所有三种方法都实现了最佳的问答性能。而且通过对 doc2dial 数据集的分析,可以观察到每个问题的相关原始段落大多集中在 3 个片段内。因此,找到最相关的 3 段被证明是获得最佳问答结果的最佳方法。
图14:检索数量与 QA 关联分析
5. 性能分析
本研究使用了两个 Tesla A800 80G 显卡,一个用于微调 LLM,另一个用于推理任务。对于 Vicuna-13B-16k、Qwen-14B-Chat 和 Baichuan2-13B-Chat 模型,我们使用 doc2dial 训练数据对它们进行了微调。经过 6 个训练周期后,所花费的时间约为 37 小时。在推理阶段,由于不同方法之间的步骤不同,我们平均测试了每个问题交互 972 个标记,具体数据如表 7 所示。值得注意的是,由于 DGDE 方法需要与 LLM 进行 3 次交互,因此在不考虑大型模型推理的并发性的情况下,DGDE 的总耗时比其他方法要长。因此,在实际应用中,我们需要平衡文档会话的质量和资源消耗。
表7:资源消耗分析
六
总结
在自然语言处理领域,基于文档的对话是一项具有挑战性的任务,而 LLM 的出现开辟了新的途径。在本文中提出了一种基于使用 LLM 生成证据的基于文档的对话方法。该方法将基于文档的问答分为检索和重新排序任务、LLMs 的微调和推理以及证据生成任务。使用开源 Doc2dial 数据集验证和分析了该方法,发现与其他方法相比,它显着提高了准确性、全面性、连贯性和完整性。通过分析实验,可以观察到 3 个子任务的综合积极影响产生了显著的改进。此外,额外的消融实验展示了该方法的创新潜力,因为检索和重新排序任务以及证据生成任务可以应用于信息检索、对话汇总和其他领域。
参考资料:
[1] Yong Song, Hongjie Fan, Junfei Liu, Yunxin Liu, Xiaozhou Ye, Ye Ouyang,A goal-oriented document-grounded dialogue based on evidence generation,Data & Knowledge Engineering,Volume 155,2025,102378,ISSN 0169-023X,https://doi.org/10.1016/j.datak.2024.102378.
[2] Yifan Gao, et al. Answering ambiguous questions through generative evidence fusion and round-trip prediction. Proceedings of the 59th Annual Meeting of the Association for Com- putational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL/IJCNLP 2021, (Volume 1: Long Papers), Virtual Event, August 1-6, 2021, pages 3263–3276. Associ- ation for Computational Linguistics, 2021.
[3] Junyi Bian, Xiaolei Qin, Wuhe Zou, Mengzuo Huang, and Weidong Zhang. Hellama: Llama-based table to text generation by highlighting the important evidence. CoRR, abs/2311.08896, 2023.
[4] Song Feng, Hui Wan, R. Chulaka Gunasekara, Siva Sankalp Patel, Sachindra Joshi, and Luis A. Lastras. doc2dial: A goal-oriented document-grounded dialogue dataset. CoRR, abs/2011.06623, 2020.