大模型时代数据库技术创新

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 大模型时代数据库技术创新
2.
3. 自我介绍 百度智能云数据库 产品总架构师 个人著作 《大数据架构详解》 获得 2017 电子工业出版社优秀作者奖 公众号 《大数据和云计算技术》
4. 目 录 01 数据库与大模型 02 DB4AI:向量数据库 03 AI4DB:数据库运维应用
5. 数据库与大模型 4
6. 数据库行业发展史概览 基础 设施 应用 场景 数据库 1950s 1970s 1990s 2000s 2015 2023 大型机 小型机 PC机+局域网 数据中心+互联网 云+端+4G GPU+AI 国防 科学研究 大型商业应用 企业信息化 ERP/CRM/财务 企业BI 个人办公 个人娱乐 媒体 搜索 电子商务 社交 新媒体 移动App 云计算 物联网 在线办公、教育 娱乐、短视频 AI原生应用 Jasper Midjourney 微软 copilot 层次数据库 网状数据库 关系型数据库 关系型数据库 数据仓库 PC单机数据库 开源数据库 云数据库 分布式数据库 IBM IMS Oracle DB2 Ingres SQL Server Teradata dBase PG MySQL Redis MongoDB Aurora RDS Redshift Oceanbase CockroachDB GaiaDB Pega DBSC DAS 向量数据库
7. 大模型二次激发了数据库和 AI 的结合 DB4AI AI4DB 向量数据库 数据库智能驾驶舱 大模型和数据库结合相比以前的 AI 技术场景更通用,能力更实用!
8. 大模型最新技术栈 SaaS 各种 Agent 客服,销售 各种 App CRM,ERP,财务,HR 私有知识库 互联网,金融,多媒体 Agent Builder 2C Agent PaaS App Builder 2B Agent Model Builder 大模型精调,部署相关工具链 大模型(文心,Llama, etc.) IaaS 数据库智能驾驶舱 DBSC GPU 低代码态开发 代码态开发 RAG Flow Vector DB CPU
9. DB4AI:向量数据库 8
10. 向量数据库典型场景 相似度检索 向量检索为主 语义搜索 文本和向量混合检索 RAG 检索结果给大模型总结 • 多模态检索 • 文档,向量混合搜索 • 知识库 • 推荐系统 • 多路召回,排序模型 • 客服 • 分类系统 有 : Cohere Rerank 和 BGE-Reranker • 大模型记忆问答
11. RAG 每步的难点和要解决的问题 数据提取 结构化/半结构化数据 website Database 数据索引 检 索 生 成 数据分块 Query 预处理 Prompt工程 • 按固定大小 • 意图识别 • Step by Step • 按意图 • 同义词生成 • 针对场景优化 • 专有名词处理 Logs APIs 非结构化数据 文档 音频 图片 视频 Embedding 召回 大模型能力 • BGE • 向量检索 • 理解 • text- embedding-3 • CLIP • 文本检索 • 生成 • 多路召回 • 逻辑 re-rank • 记忆 • 应 用 搜索 推荐 copilot CoAI
12. RAG 在通用性和性价比上占据明显优势 • 推理能力更强 大 模 型 长 文 本 R A G • 成本低 • 性能好,尤其是响应时延更好 • 问答稳定,解决大模型幻觉问题 • 复杂问题,安全问题处理更好 (复杂过滤,安全回答) • 定位方便(大模型是黑盒)
13. RAG 应用场景:私域知识库 业务场景 基于大模型的推理能力,搭配向量数据库 私有数据召回能力,构建私域知识库 功能需求 统一的客户向量数据全生命周期管理 • 数据 embedding 管理 • 多模私域数据存储和检索管理 • 针对私域数据的向量标量混合检索 技术难点 • 向量模型的版本管理和全量更新 • 复杂的向量和标量混合查询条件支持 • 支持私有化部署,集群小型化部署
14. 传统数据库支持向量的缺陷 系统架构 传统数据库的系统架构针对标量字段处理设计,需要支持复杂的SQL计算,与 索引性能 传统数据库通过扩展向量字段,并基于开源 Faiss,nswlib,annoy 等来扩展 存储方案 传统数据库使用的向量检索库往往不具备实时做数据持久化,不能保障数据一 向量数据的 KNN 检索有很大差距,不能很好解决向量检索需求 向量索引,受原有架构影响,在写入效率,查询延时和并发性能上均存在瓶颈 致性
15. 百度AI原生向量数据库VectorDB 海量向量存储 / 高性能访问 / • 分布式架构,支持百亿级向量规模和十万级分片数量 • 支持 HNSW/Puck/PQ 等高性能算法 • 同时支持向量数据和标量数据 • 毫秒级ANN向量检索延时 • 支持4096维的高维向量 • • 支持向量索引量化压缩 架构和数据引擎多方面工程优化,各场景性能均高于 开源产品 3~7.5倍 全栈LLM开发 / 弹性&高可用 / • 支持主流的LLMs框架集成开发 • 提供弹性伸缩能力,最大上千节点 • 集成百度千帆 Embedding 模型,基于百度中文语料 并加入知识图谱进行训练,中文实体和短语性能好 • 分布式高可用架构,可用性 99.99%,RPO=0, RTO=30s • 内建自动化管理和监控 • 支持本地磁盘和云存储设施
16. VectorDB 技术体系 业务场景 文本检索&生成 相似图片检索 推荐系统 大模型推理 生态集成 大模型知识库 大模型框架集成 LLM 接入服务 访问接口 Interface Restful API 多语言SDK 负载均衡 Load Balance 故障隔离 Failover 身份认证 Authentication 白名单 Firewall 纯向量检索 标量查询 标/向量混合检索 实时写入 向量存储 存储支持 二级索引 批量加载 标量存储 行存储 列存储 容器化部署 百度 CCE K8S 第三方容器云 ChatGPT 千帆 国产芯片 Embedding模型调用 国产操作系统 集群元数据 meta 强一致策略 RPC通信 形式化验证 数据库 Database 表 Table 索引 Index 集群生命周期管理 DDL 访问控制管理 DCL 分区 Partition 用户体系 哈希索引 倒排索引 图结构索引 平台管理 FLAT PQ Baidu Puck HNSW 自动运维 Operation Automation 索引调度 Index Scheduler 虚拟机 Baidu BCC 索引重建 Index Rebuild 监控告警 Monitor & Alert 云原生服务 容灾备份 Backup & Recovery 公有云 私有云 副本 Replica 权限管理 RBAC 高精度索引 服务器部署 物理机 国产服务器 Raft共识协议 向量索引 数据模式 Data Schema Llama Index 集群管理 异步同步 数据引擎 LangChain 分布式 查询检索 查询引擎 Query/Search Engine 信创平台支持 Platform 白名单 Audit 访问控制
17. 成熟的分布式架构 高可靠、高可用、强扩展、大规模 系统分为代理节点、数据节点和管理节点 • 代理节点:无状态&对等,支持负载均衡 • 管理节点:基于 Raft 协议的高可用设计,管理集群的物理拓扑、逻辑拓扑和数据库资源等 • 数据节点:负责数据的增删改、查询和检索等。基于Raft协议管理表/集合数据的分片及其副本,支持自动 Failover 和弹性伸缩等
18. 自研高性能数据引擎 数据类型 Schema 体系 • 支持强 Schema 模型,同时支持标量和向量数据类型 索 引 • 支持二级索引,支持各类向量索引 • 支持标量检索、向量检索和标量向量混合检索 数据存储与均衡 • • • • 支持标量和向量数据的增删改以及批量处理 基于 LSM 模型,支持行存、列存、行列混存 支持 KV 分离存储模型 支持引擎内再分片以及细粒度向量索引调度 数据压缩 数据/控制接口 • 支持快照及恢复 • 支持数据多版本机制 硬件优化 • 支持指令集优化、CPU 硬件优化、编译器优化等 状态管理 表/集合 Segment 层 列族 Compaction调度 Segment路由 快照 恢复 列/字段 Storage 层 标量索引 • 支持压缩 数据备份恢复 Tablet 层 增/删/改/扫描/查询/检索/迭代器 接口 内存表 向量索引缓存 主键索引缓存 标量数据缓存 SSTable 文件 向量索引文件 向量索引 数据类型系统
19. 向量/标量混合检索 客户端 VectorDB 支持常见标量类型字段,并支持 向量和标量的混合检索 协议层 服务监听 HTTP 协议 VectorDB 执行引擎支持多种检索过滤机制: 解析器 语法分析 AST 检索预过滤 • 先按标量条件筛选 • 再在向量索引中进行 bitmap 过滤 • 最后对结果集进行向量相似性查询 逻辑执行计划 解析器 检索后过滤 元数据 统计信息 物理执行计划 检索时过滤 • 进行向量检索时同时按标量条件过滤 • 向量索引底层需支持数据过滤 RPC 协议 检索后过滤 执行器 检索结果 查询时过滤 Inline filter • 先做相似性检索,再对结果集进行过滤 数据分段检索优化 • 按统计信息对索引分段采用不同过滤机制 存储服务 预过滤 标量索引 向量索引
20. 百度智能云 VectorDB 性能测试报告 VectorDB 和某开源系统的对比测试结果,性能(QPS)提升3倍到7.5倍 开源向量数据库 • • 百度智能云 VectorDB 检索QPS或吞吐:系统在单位时间内能够处理的检索请求数量,是衡量检 索性能的关键指标 召回率:检索的TopK结果中,满足真实情况(KNN 检索)的TopK集合 的比例,是衡量向量检索精度的关键指标 开源向量数据库 百度智能云 VectorDB • 测试方法:向量索引选择 HNSW,检索最相似 Top10 的向量 • 测试规格:数据节点4核8GB,数量为3个 • 数据集:SIFT128、COHERE768、GIST960三种维度的数据集,大小为 100万 • 数据表配置:数据表1个分区/分片,分片副本数为3
21. VectorDB 核心优势总结 【服务高可用】 分布式架构 • 【全栈 LLM 技术支撑】 完整数据库管控能力 弹性扩展能力 数据强同步 • 【海量数据检索】 RAFT一致性保障 故障自愈 百亿级高维度向量存储 • 数据全生命周期管理 • RTO<30 • 数据分片和多副本设计 • 360°性能监控和优化 • RPO=0 • 分布式 ANN 索引 百度文心全技术栈支撑 丰富的检索方式 • 领先的中文 Embedding 能力 • 向量检索 • 千帆大模型应用引擎支持 • 向量标量混合检索 • 全文检索&多路召回 【极致性价比控制】 内存开销降低90% 【国产信创支持】 代码自研 • 精细的内存开销控制 • 百度自研 • HNSW_PQ 算法支持 • 知识产权 高性能查询 信创平台全兼容 • 极致的检索性能优化 • 兼容国产主流 CPU • 远超开源竞品的查询性能 • 兼容国产主流操作系统
22. AI4DB:数据库运维应用 21
23. DBSC 数据库智能驾驶舱服务全景 组织权限 自治 能力 模块权限 实例权限 DB权限 请求分析 查询治理 数据库审计 慢日志分析 查询治理趋势 高风险请求 全量请求分析 TOP 数据分析 列权限 Table权限 智能压测 智能巡检 智能领航员 任务创建 自动巡检 产品咨询 SQL 注入 压测控制 报告分析 待优化 SQL 访问来源分析 报告分析 风险提示 失败 SQL 合规报表 AI 增强 优化建议 知识检索 操 作 审 计 健康评分 大模型 仪 表 盘 数据源 实例监控 告警服务 事件中心 监控展示 告警配置 事件和建议 监控接入 告警模板 执行完事件 会话情况 告警规则 计划事件 MySQL PostgreSQL 敏感数据管理 数 据 开 发 自动发现 脱敏规则 变更发布 备份回滚 SQLServer 手动配置 流程规范 Redis 定时发布 SQL规范 自定义审批 审批管理 数据归档 MongoDB 流程中心 消息通知 GaiaDB … …
24. 智能领航员:数据库 copilot 智能运维 覆盖金融、 制造、科研 等行业头部 客户行业最 佳实践 百度多年来 汇聚数百名 数据库专家 经验 大模型相比 传统算法带 来了更好的 优化效果 智能开发 智能优化
25. 智能领航员原理 领域知识 文档加载 / 切分 / 强化 技术解决方案 Embedding 向量化 知识点 原理 用户问题 Embedding 向量化 问题向量 向量存储 领域 知识 相似度检索 Prompt 解答 LLM QA / CoT Top相关 知识点 Prompt 模板 方案 • 利 用 RAG ( Retrieval Augmented Generation)技术,对大模型进行领 域知识增强 • • • 云产品文档 数据库官方文档 内部知识库积累 • 知识切分: 原 始 知识按 自然 段 落 、 chunk size等维度切分知识点 embedding : 文 心 千 帆 (ernie- bot)、text2vec 向量数据库: VDB • • 效果 • • 评价方式:对历史客户工单中的真实 问题进行回答后由人工打分(1-5分) 整体回复平均分超过4分
26. 未来展望 SaaS Copilot Agent PaaS 文本大模型 多模态 IaaS 模型云端 模型本地化
27.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-24 11:04
浙ICP备14020137号-1 $Map of visitor$