基于 Qwen2.5-14B + Elasticsearch RAG 的大数据知识库智能问答系统

原创铭毅天下铭毅天下Elasticsearch

2025年03月06日 01:15

AI 时代，如何从海量私有文档（非公开）中快速提取精准信息成为了许多企业和个人的迫切需求。

本文介绍了一款基于 Qwen2.5-14B 大语言模型（换成 DeepSeek 原理一致）与 Elasticsearch 搜索引擎构建的大数据知识库智能问答系统。

该系统结合了向量检索技术、检索增强技术（RAG）和生成式 AI，能够高效处理多格式文档并为用户提供准确、自然的回答。

以下将从实测效果、环境要求、整体架构、代码解读以及改进展望五个方面详细阐述该系统的实现方案。

1. 大数据知识库智能问答系统实测效果展示

该系统导入《一本书讲透 Elasticsearch》21章（纸质书 483页，63.8万字）全部内容。

经过多次实测，能够有效应对多样化的用户查询，展现出强大的信息检索与回答生成能力。

例如，当用户输入与知识库文档相关的具体问题时，系统能够迅速定位相关内容并生成连贯、准确的回答。

这种能力得益于 Elasticsearch 的高效检索以及 Qwen2.5-14b 的上下文理解与生成能力。

在实际测试中，系统对常见文档格式（如 PDF、Word、Excel、txt 等）中的内容表现出良好的覆盖率。

针对技术文档中的专业术语的相关问题，系统能精准提取并以自然语言形式呈现给用户。

这种实测效果证明了系统在知识管理与智能问答场景中的实用价值。

2. 知识库智能问答系统环境要求

为确保系统的正常运行和高效性能，以下是所需的软硬件环境与版本要求：

Ollama:

用于管理和运行 Qwen2.5-14b 大语言模型。

示例模型列表：

C:\Users\Administrator>ollama list
NAME           ID              SIZE      MODIFIED
qwen2.5:14b    7cdf5a0187d5    9.0 GB    3 months ago
qwen2:72b      14066dfa503f    41 GB     7 months ago
qwen2:7b       e0d4e1163c58    4.4 GB    7 months ago

FSCrawler 2.10:

用于将本地文档（如 PDF、DOC、XLS、PPT、TXT）爬取并索引到 Elasticsearch。
Elasticsearch FSCrawler 文档爬虫学习，请先看这一篇！

Elasticsearch 8.15.3:

核心搜索引擎，负责存储和检索向量化的文档数据。

Kibana 8.15.3:

可视化工具，用于监控和管理 Elasticsearch 的状态与索引。

向量化模型:

SentenceModel('shibing624/text2vec-base-chinese')，专为中文文本设计的句子嵌入模型，用于将查询和文档转化为向量表示。

对话客户端:

Gradio，提供基于 Web 的交互界面，方便用户输入查询并查看回答。
地址：https://github.com/gradio-app/gradio

这些组件共同构成了系统的技术基础，确保了从数据摄取到回答生成的完整流程。

3. 知识库智能问答系统整体架构图

系统的架构设计清晰地分为多个层次和流程，以下基于提供的两张架构图进行详细解读：

3.1 组件架构

上述架构图展示了一个垂直的层次结构，描述了系统的核心组件及其连接关系，自上而下解读如下：

Gradio Web 界面:

位于顶层，使用绿色矩形框表示，标注为“Gradio 大模型交互 Web”。这是用户与系统交互的入口，支持输入查询和接收回答。

Qwen2.5-14b :

第二层，用紫色矩形框表示，包含 Qwen 的标志，以及“Qwen2.5-14B 开源大语言模型”字样。用户查询从 Gradio 传递至此，由 Qwen2.5-14b 处理。
注意咱们用的通义千问2.5的模型，实际也可以换成 DeepSeek 模型。

向量化层:

第三层，用红色矩形框表示，标注为“shibing624/text2vec-base-chinese 向量化”。此层将文本转化为向量，为后续的语义检索提供支持。

Elasticsearch 搜索:

第四层，同样为红色矩形框，包含 Elasticsearch 标志和“搜索引擎”字样。向量化的数据在此存储并用于检索。

FSCrawler 数据摄取:

第五层，用蓝色矩形框表示，标注为“FSCrawler 文档爬虫”，负责将本地文档索引到 Elasticsearch。

数据源:

底层，用米色矩形框表示，包含 PDF、DOC、XLS、PPT、TXT 等文档类型图标，标注为“数据源”。

箭头从上到下连接各层，表明数据从用户界面流向大语言模型，再经过向量化、检索，最终基于文档数据生成回答。

3.2 数据处理流程（图 1）

如下水平流程图展示了查询的处理过程：

输入:

左侧标注为“待检索的问句”，表示用户输入的查询。同时，“私有化本地数据源”（PDF、DOC、XLS 等）作为知识库基础。

Elasticsearch:

中间核心组件，标注为“Elasticsearch”，包含“向量数据库”和“向量检索”模块。查询和数据源均输入此模块，通过向量检索匹配相关文档。

Qwen2.5 LLM:

右侧标注为“DeepSeek ... Qwen2.5 LLM 大语言模型”，接收检索结果并生成回答。

输出与验证:

最终输出为“提取用户想要的精准答案”，并通过“结果验证”确保准确性。此外，系统提供“公网开放接口”，支持 API 访问。

3.3 综合分析

综合两图来看，系统采用经典的 RAG（Retrieval-Augmented Generation） 架构：

用户查询首先通过向量化模型（shibing624/text2vec-base-chinese）转化为向量，在 Elasticsearch 中检索相关文档，随后将查询与检索结果传递给 Qwen2.5-14b 生成最终回答。

Gradio 提供友好界面，FSCrawler 确保数据摄取的自动化，而公网接口则扩展了系统的应用场景。

检索增强生成（RAG）简单来说就是先从一大堆文档中找到跟用户问题相关的内容，然后用大语言模型把这些内容整理成自然、易懂的回答。

4. 知识库智能问答系统代码解读

以下是实现该系统的一般步骤与代码思路，具体代码放到死磕Elasticsearch知识星球。

4.1 文档摄取

使用 FSCrawler 扫描本地文件并索引到 Elasticsearch：

fscrawler --config_dir /path/to/config job_name

配置文件需指定文档路径和 Elasticsearch 索引名称。

4.2 向量化

利用 shibing624/text2vec-base-chinese 对文档和查询进行向量化：

from text2vec import SentenceModel
model = SentenceModel('shibing624/text2vec-base-chinese')

# 文档向量化并存入 Elasticsearch
for doc in documents:
    vector = model.encode(doc['text'])
    es.index(index='knowledge_base', body={'text': doc['text'], 'vector': vector})

4.3 查询处理与检索

将用户查询向量化并在 Elasticsearch 中执行相似性搜索，这里本质做的是关键词匹配+向量检索的组合方式。

4.4 回答生成

将查询和检索结果传递给 Qwen2.5-14b 生成回答：

from ollama import Client
ollama = Client()
context = "\n".join([doc['_source']['text'] for doc in results['hits']['hits']])
prompt = f"根据以下内容回答问题：\n{context}\n问题：{query}"
response = ollama.generate(model='qwen2.5:14b', prompt=prompt)
answer = response['text']

4.5 Gradio 界面

通过 Gradio 实现交互：

import gradio as gr
def qa_system(query):
    # 查询处理、检索、生成逻辑
    return answer
interface = gr.Interface(fn=qa_system, inputs="text", outputs="text")
interface.launch()