大模型+数据资产变现,RAG 驱动企业智能化实践案例

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:黄佳
2. 黄佳 研究员 / 技术图书作者 / 极客时间专栏作者 《极客时间 LangChain实战课》 《极客时间 RAG进阶训练营》 极客时间 RAG 训练营 Visuals Support:
3. 01 为什么我们仍然在谈论RAG 02 RAG落地痛点及优化思路 03 企业文档合规性问答系统落地实践 04 医疗术语标准化系统的落地实践 05 知识图谱在医疗术语标准化系统中的应用 06 MCP和A2A时代的RAG
4.
5. 01
6. ——
7. 1. 人类与大模型直接对话 3. 大模型进行自主推理 2. 大模型进行知识检索
8.
9.
10.
11. 02
12. 落地难点 文档的导入和解析(图、表) 如何将相关联的内容整体切片或建立起相关联的索引 如何处理大规模、分布式向量数据 的精细化设计 如何构建程序代码的检索系统 图数据库和知识图谱和 系统的结合 如何设计有权限的 系统
13. 系统 图 系 问 问 RAG 问 性 问 性 进行文档 合 问 问 问 问 问 问 问 性文档 问 图 答 问 文 系 大模型 问 大模型 实 问 实性 性 文档 时 文档 寻 找 瓶 颈 点 合 时 大模型 文档 文档 图 模 专 模型 答 进行 专 文 答 模型 者 模 文 文 文 文档 模
14. 03
15. Sustainability Report ESG 1. E 1. 2. 3. 2. Scope 1, Scope 2, Scope 3 S 1. 2. 3. 3. D&I G 1. 2. 3. Sustainability Report GRI
16. + • • PDF • • • • • • • 缺乏统 缺少高 有效 难 追踪 统难 持续 真实 与改进 准 • 与 文档导入 索引设计 如何评估 指标体系 致 闭环 系
17. 文档 预处理模块 文档入库 提取元数据信息 文档切块 嵌入 向量数据库 索引 预处理Agent 政策法规 合规文档 技术文档 API文档 财务报表 年报文档 技术白皮书 (公式/图形)
18. 文档加载器 PyPDF Unstructured 说明 使 使 Unstructured 使 Amazon Textract MathPix pypdf 使 开 AWS API MathPix Package/API 特点 PDF文件 Package 高效轻 合 简单PDF文档 兼容 种文档格 支持内容 取 PDF文件 Package/API PDF文件 PDF文件 API API PDFPlumber PyPDFDirectry 使 PDFPlumber PDF文件 目录 PDF文件 Package Package PyPDFium2 使 PyPDFium2 Package PDF文件 PyMuPDF 使 PyMuPDF PDF文件 Package PDFMiner 使 PDFMiner PDF文件 Package 云服务支持 合大批 文档 OCR 专为 学公 计 准 内容 丰富 PDF内容控制 功 批 便 个PDF文档 高效 支持PDF页面 渲染 换 速 支持 PDF 细 合文 抽取 文 PDF 内容
19.
20. from langchain_unstructured import UnstructuredLoader 除Markdown之外,我还需要构建一套索引系统 from typing import List from langchain_core.documents import Document page_url = "https://zh.wikipedia.org/wiki/黑神话:悟空" def _get_setup_docs_from_url(url: str) -> List[Document]: loader = UnstructuredLoader(web_url=url) setup_docs = [] # parent_id = None # 初始化 parent_id # current_parent = None # 用于存储当前父元素 for doc in loader.load(): # 检查是否是 Title 或 Table if doc.metadata["category"] == "Title" or doc.metadata["category"] == "Table": parent_id = doc.metadata["element_id"] current_parent = doc # 更新当前父元素 setup_docs.append(doc) elif doc.metadata.get("parent_id") == parent_id: setup_docs.append((current_parent, doc)) # 将父元素和子 元素一起存储 return setup_docs
21. PDF SimpleDirectoryReader SentenceSplitter
22.
23. 系统 图 系 问 问 问 性 问 性 进行文档 合 问 问 问 问 问 问 问 性文档 问 图 答 问 文 系 寻 找 瓶 颈 点 大模型 问 大模型 实 问 实性 性 文档 时 文档 合 时 大模型 文档 文档 图 模 专 模型 答 进行 专 文 答 模型 者 模 文 文 文 文档 模
24.
25.
26.
27. 1. 构建两个向量数据库(Summary 和 Details),通过 Metadata进行链接 2. 通过LlamaIndex的IndexNode和PandasQueryEngine 3. 也可以通过查询先检索相关表名,然后做Text2SQL 4. 对于这个例子,也可以提取年份,用元数据进行Filter
28. 思路1:元数据提取 Year = 2023 思路2:直接检索Summary节点 2023年的碳排量 2024年的碳排量 2025年的碳排量
29. 系统 图 系 问 问 问 性 问 性 进行文档 合 问 问 问 问 问 问 问 性文档 问 图 答 问 文 系 寻 找 瓶 颈 点 大模型 问 大模型 实 问 实性 性 文档 时 文档 合 时 大模型 文档 文档 图 模 专 模型 答 进行 专 文 答 模型 者 模 文 文 文 文档 模
30. • • 实 实性 性
31.
32.
33.
34. • • • F1 • • • P@K • BLEU • ROUGE • METEOR
35. 系统 图 系 问 问 问 性 问 性 进行文档 合 问 问 问 问 问 问 问 性文档 问 图 答 问 文 系 寻 找 瓶 颈 点 大模型 问 大模型 实 问 实性 性 文档 时 文档 合 时 大模型 文档 文档 图 模 专 模型 答 进行 专 文 答 模型 者 模 文 文 文 文档 模
36. 04
37. 系统 医院内存在多种电子病历系统与数据标准 临床医生使用非标准化术语记录病情 医疗数据分析需要统一术语标准以提高准确性 术 录 者 高 化 时 核心挑战 • 专业术语多样性:同义词、缩写、俚语并存 • 领域知识壁垒:需要专业医学背景解读上下文 • 系统适应性:需应对不同科室、不同记录习惯 • 实时性要求:诊疗过程中需快速响应 性 性 难 关 化 难 的 者 性 高 时 难 难
38. 尿病 种 有 标 个 关系 为 尿病 关系 识 尿病 IS A 代谢性疾病 种 有 标 为 有 个 有 标 个 为 标 为“ ” 少有 73211009 疾病 限 种 个 种 少 有 个 系 个IS_A 系 个 件 标 有 个 关系 个 种 有 有 性 性 系 系
39.
40. 05
41. 找某 学 “部位” “ 所有 性 系 ” “因 ” 因果关系 获取 个 学 所有 语义网络 文 获取 个 学 概念和属性 性。
42.
43. 系统 图 系 问 问 问 性 问 性 进行文档 合 问 问 问 问 问 问 问 性文档 问 图 答 问 文 系 寻 找 突 破 口 大模型 问 大模型 实 问 实性 性 文档 时 文档 合 时 大模型 文档 文档 图 模 专 模型 答 进行 专 文 答 模型 者 模 文 文 文 文档 模
44. 06
45. RAG RAG • LLM Agent RAG • MCP: / Agent " " Agent • A2A: Agent Agent " " Agent RAG RAG 在这个生态中既是连接 LLM 与外部海量知识的纽带(通过 MCP 的“手”), 也是多 Agent 协作时的信息载体(通过 A2A 的“嘴”) RAG
46.
47. 探索 AI 应用边界 Explore the limits of AI applications

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 17:02
浙ICP备14020137号-1 $访客地图$