大模型时代数据库技术创新

如果无法正常显示，请先停止浏览器的去广告插件。

1. 大模型时代数据库技术创新

3. 自我介绍百度智能云数据库产品总架构师个人著作《大数据架构详解》获得 2017 电子工业出版社优秀作者奖公众号《大数据和云计算技术》

4. 目录 01 数据库与大模型 02 DB4AI：向量数据库 03 AI4DB：数据库运维应用

5. 数据库与大模型 4

6. 数据库行业发展史概览基础设施应用场景数据库 1950s 1970s 1990s 2000s 2015 2023 大型机小型机 PC机+局域网数据中心+互联网云+端+4G GPU+AI 国防科学研究大型商业应用企业信息化 ERP/CRM/财务企业BI 个人办公个人娱乐媒体搜索电子商务社交新媒体移动App 云计算物联网在线办公、教育娱乐、短视频 AI原生应用 Jasper Midjourney 微软 copilot 层次数据库网状数据库关系型数据库关系型数据库数据仓库 PC单机数据库开源数据库云数据库分布式数据库 IBM IMS Oracle DB2 Ingres SQL Server Teradata dBase PG MySQL Redis MongoDB Aurora RDS Redshift Oceanbase CockroachDB GaiaDB Pega DBSC DAS 向量数据库

7. 大模型二次激发了数据库和 AI 的结合 DB4AI AI4DB 向量数据库数据库智能驾驶舱大模型和数据库结合相比以前的 AI 技术场景更通用，能力更实用！

8. 大模型最新技术栈 SaaS 各种 Agent 客服，销售各种 App CRM，ERP，财务，HR 私有知识库互联网，金融，多媒体 Agent Builder 2C Agent PaaS App Builder 2B Agent Model Builder 大模型精调，部署相关工具链大模型（文心，Llama, etc.） IaaS 数据库智能驾驶舱 DBSC GPU 低代码态开发代码态开发 RAG Flow Vector DB CPU

9. DB4AI：向量数据库 8

10. 向量数据库典型场景相似度检索向量检索为主语义搜索文本和向量混合检索 RAG 检索结果给大模型总结 • 多模态检索 • 文档，向量混合搜索 • 知识库 • 推荐系统 • 多路召回，排序模型 • 客服 • 分类系统有： Cohere Rerank 和 BGE-Reranker • 大模型记忆问答

11. RAG 每步的难点和要解决的问题数据提取结构化/半结构化数据 website Database 数据索引检索生成数据分块 Query 预处理 Prompt工程 • 按固定大小 • 意图识别 • Step by Step • 按意图 • 同义词生成 • 针对场景优化 • 专有名词处理 Logs APIs 非结构化数据文档音频图片视频 Embedding 召回大模型能力 • BGE • 向量检索 • 理解 • text- embedding-3 • CLIP • 文本检索 • 生成 • 多路召回 • 逻辑 re-rank • 记忆 • 应用搜索推荐 copilot CoAI

12. RAG 在通用性和性价比上占据明显优势 • 推理能力更强大模型长文本 R A G • 成本低 • 性能好，尤其是响应时延更好 • 问答稳定，解决大模型幻觉问题 • 复杂问题，安全问题处理更好（复杂过滤，安全回答） • 定位方便（大模型是黑盒）

13. RAG 应用场景：私域知识库业务场景基于大模型的推理能力，搭配向量数据库私有数据召回能力，构建私域知识库功能需求统一的客户向量数据全生命周期管理 • 数据 embedding 管理 • 多模私域数据存储和检索管理 • 针对私域数据的向量标量混合检索技术难点 • 向量模型的版本管理和全量更新 • 复杂的向量和标量混合查询条件支持 • 支持私有化部署，集群小型化部署

14. 传统数据库支持向量的缺陷系统架构传统数据库的系统架构针对标量字段处理设计，需要支持复杂的SQL计算，与索引性能传统数据库通过扩展向量字段，并基于开源 Faiss，nswlib，annoy 等来扩展存储方案传统数据库使用的向量检索库往往不具备实时做数据持久化，不能保障数据一向量数据的 KNN 检索有很大差距，不能很好解决向量检索需求向量索引，受原有架构影响，在写入效率，查询延时和并发性能上均存在瓶颈致性

15. 百度AI原生向量数据库VectorDB 海量向量存储 / 高性能访问 / • 分布式架构，支持百亿级向量规模和十万级分片数量 • 支持 HNSW/Puck/PQ 等高性能算法 • 同时支持向量数据和标量数据 • 毫秒级ANN向量检索延时 • 支持4096维的高维向量 • • 支持向量索引量化压缩架构和数据引擎多方面工程优化，各场景性能均高于开源产品 3~7.5倍全栈LLM开发 / 弹性&高可用 / • 支持主流的LLMs框架集成开发 • 提供弹性伸缩能力，最大上千节点 • 集成百度千帆 Embedding 模型，基于百度中文语料并加入知识图谱进行训练，中文实体和短语性能好 • 分布式高可用架构，可用性 99.99%，RPO=0， RTO=30s • 内建自动化管理和监控 • 支持本地磁盘和云存储设施

16. VectorDB 技术体系业务场景文本检索&生成相似图片检索推荐系统大模型推理生态集成大模型知识库大模型框架集成 LLM 接入服务访问接口 Interface Restful API 多语言SDK 负载均衡 Load Balance 故障隔离 Failover 身份认证 Authentication 白名单 Firewall 纯向量检索标量查询标/向量混合检索实时写入向量存储存储支持二级索引批量加载标量存储行存储列存储容器化部署百度 CCE K8S 第三方容器云 ChatGPT 千帆国产芯片 Embedding模型调用国产操作系统集群元数据 meta 强一致策略 RPC通信形式化验证数据库 Database 表 Table 索引 Index 集群生命周期管理 DDL 访问控制管理 DCL 分区 Partition 用户体系哈希索引倒排索引图结构索引平台管理 FLAT PQ Baidu Puck HNSW 自动运维 Operation Automation 索引调度 Index Scheduler 虚拟机 Baidu BCC 索引重建 Index Rebuild 监控告警 Monitor & Alert 云原生服务容灾备份 Backup & Recovery 公有云私有云副本 Replica 权限管理 RBAC 高精度索引服务器部署物理机国产服务器 Raft共识协议向量索引数据模式 Data Schema Llama Index 集群管理异步同步数据引擎 LangChain 分布式查询检索查询引擎 Query/Search Engine 信创平台支持 Platform 白名单 Audit 访问控制

17. 成熟的分布式架构高可靠、高可用、强扩展、大规模系统分为代理节点、数据节点和管理节点 • 代理节点：无状态&对等，支持负载均衡 • 管理节点：基于 Raft 协议的高可用设计，管理集群的物理拓扑、逻辑拓扑和数据库资源等 • 数据节点：负责数据的增删改、查询和检索等。基于Raft协议管理表/集合数据的分片及其副本，支持自动 Failover 和弹性伸缩等

18. 自研高性能数据引擎数据类型 Schema 体系 • 支持强 Schema 模型，同时支持标量和向量数据类型索引 • 支持二级索引，支持各类向量索引 • 支持标量检索、向量检索和标量向量混合检索数据存储与均衡 • • • • 支持标量和向量数据的增删改以及批量处理基于 LSM 模型，支持行存、列存、行列混存支持 KV 分离存储模型支持引擎内再分片以及细粒度向量索引调度数据压缩数据/控制接口 • 支持快照及恢复 • 支持数据多版本机制硬件优化 • 支持指令集优化、CPU 硬件优化、编译器优化等状态管理表/集合 Segment 层列族 Compaction调度 Segment路由快照恢复列/字段 Storage 层标量索引 • 支持压缩数据备份恢复 Tablet 层增/删/改/扫描/查询/检索/迭代器接口内存表向量索引缓存主键索引缓存标量数据缓存 SSTable 文件向量索引文件向量索引数据类型系统

19. 向量/标量混合检索客户端 VectorDB 支持常见标量类型字段，并支持向量和标量的混合检索协议层服务监听 HTTP 协议 VectorDB 执行引擎支持多种检索过滤机制：解析器语法分析 AST 检索预过滤 • 先按标量条件筛选 • 再在向量索引中进行 bitmap 过滤 • 最后对结果集进行向量相似性查询逻辑执行计划解析器检索后过滤元数据统计信息物理执行计划检索时过滤 • 进行向量检索时同时按标量条件过滤 • 向量索引底层需支持数据过滤 RPC 协议检索后过滤执行器检索结果查询时过滤 Inline filter • 先做相似性检索，再对结果集进行过滤数据分段检索优化 • 按统计信息对索引分段采用不同过滤机制存储服务预过滤标量索引向量索引

20. 百度智能云 VectorDB 性能测试报告 VectorDB 和某开源系统的对比测试结果，性能（QPS）提升3倍到7.5倍开源向量数据库 • • 百度智能云 VectorDB 检索QPS或吞吐：系统在单位时间内能够处理的检索请求数量，是衡量检索性能的关键指标召回率：检索的TopK结果中，满足真实情况（KNN 检索）的TopK集合的比例，是衡量向量检索精度的关键指标开源向量数据库百度智能云 VectorDB • 测试方法：向量索引选择 HNSW，检索最相似 Top10 的向量 • 测试规格：数据节点4核8GB，数量为3个 • 数据集：SIFT128、COHERE768、GIST960三种维度的数据集，大小为 100万 • 数据表配置：数据表1个分区/分片，分片副本数为3

21. VectorDB 核心优势总结【服务高可用】分布式架构 • 【全栈 LLM 技术支撑】完整数据库管控能力弹性扩展能力数据强同步 • 【海量数据检索】 RAFT一致性保障故障自愈百亿级高维度向量存储 • 数据全生命周期管理 • RTO<30 • 数据分片和多副本设计 • 360°性能监控和优化 • RPO=0 • 分布式 ANN 索引百度文心全技术栈支撑丰富的检索方式 • 领先的中文 Embedding 能力 • 向量检索 • 千帆大模型应用引擎支持 • 向量标量混合检索 • 全文检索&多路召回【极致性价比控制】内存开销降低90% 【国产信创支持】代码自研 • 精细的内存开销控制 • 百度自研 • HNSW_PQ 算法支持 • 知识产权高性能查询信创平台全兼容 • 极致的检索性能优化 • 兼容国产主流 CPU • 远超开源竞品的查询性能 • 兼容国产主流操作系统

22. AI4DB：数据库运维应用 21

23. DBSC 数据库智能驾驶舱服务全景组织权限自治能力模块权限实例权限 DB权限请求分析查询治理数据库审计慢日志分析查询治理趋势高风险请求全量请求分析 TOP 数据分析列权限 Table权限智能压测智能巡检智能领航员任务创建自动巡检产品咨询 SQL 注入压测控制报告分析待优化 SQL 访问来源分析报告分析风险提示失败 SQL 合规报表 AI 增强优化建议知识检索操作审计健康评分大模型仪表盘数据源实例监控告警服务事件中心监控展示告警配置事件和建议监控接入告警模板执行完事件会话情况告警规则计划事件 MySQL PostgreSQL 敏感数据管理数据开发自动发现脱敏规则变更发布备份回滚 SQLServer 手动配置流程规范 Redis 定时发布 SQL规范自定义审批审批管理数据归档 MongoDB 流程中心消息通知 GaiaDB … …

24. 智能领航员：数据库 copilot 智能运维覆盖金融、制造、科研等行业头部客户行业最佳实践百度多年来汇聚数百名数据库专家经验大模型相比传统算法带来了更好的优化效果智能开发智能优化

25. 智能领航员原理领域知识文档加载 / 切分 / 强化技术解决方案 Embedding 向量化知识点原理用户问题 Embedding 向量化问题向量向量存储领域知识相似度检索 Prompt 解答 LLM QA / CoT Top相关知识点 Prompt 模板方案 • 利用 RAG （ Retrieval Augmented Generation）技术，对大模型进行领域知识增强 • • • 云产品文档数据库官方文档内部知识库积累 • 知识切分：原始知识按自然段落、 chunk size等维度切分知识点 embedding ：文心千帆 (ernie- bot)、text2vec 向量数据库： VDB • • 效果 • • 评价方式：对历史客户工单中的真实问题进行回答后由人工打分（1-5分）整体回复平均分超过4分

26. 未来展望 SaaS Copilot Agent PaaS 文本大模型多模态 IaaS 模型云端模型本地化

27.