大模型时代数据库技术创新
如果无法正常显示,请先停止浏览器的去广告插件。
1. 大模型时代数据库技术创新
2.
3. 自我介绍
百度智能云数据库
产品总架构师
个人著作
《大数据架构详解》
获得 2017 电子工业出版社优秀作者奖
公众号
《大数据和云计算技术》
4. 目 录
01 数据库与大模型
02 DB4AI:向量数据库
03 AI4DB:数据库运维应用
5. 数据库与大模型
4
6. 数据库行业发展史概览
基础
设施
应用
场景
数据库
1950s 1970s 1990s 2000s 2015 2023
大型机 小型机 PC机+局域网 数据中心+互联网 云+端+4G GPU+AI
国防
科学研究 大型商业应用 企业信息化
ERP/CRM/财务
企业BI
个人办公
个人娱乐 媒体
搜索
电子商务
社交 新媒体
移动App
云计算
物联网
在线办公、教育
娱乐、短视频 AI原生应用
Jasper
Midjourney
微软 copilot
层次数据库
网状数据库 关系型数据库 关系型数据库
数据仓库
PC单机数据库 开源数据库 云数据库
分布式数据库
IBM IMS
Oracle
DB2
Ingres
SQL Server
Teradata
dBase
PG
MySQL
Redis
MongoDB
Aurora
RDS
Redshift
Oceanbase
CockroachDB
GaiaDB
Pega
DBSC
DAS
向量数据库
7. 大模型二次激发了数据库和 AI 的结合
DB4AI AI4DB
向量数据库 数据库智能驾驶舱
大模型和数据库结合相比以前的 AI 技术场景更通用,能力更实用!
8. 大模型最新技术栈
SaaS
各种 Agent
客服,销售
各种 App
CRM,ERP,财务,HR
私有知识库
互联网,金融,多媒体
Agent Builder
2C Agent
PaaS
App Builder
2B Agent
Model Builder
大模型精调,部署相关工具链
大模型(文心,Llama, etc.)
IaaS
数据库智能驾驶舱
DBSC
GPU
低代码态开发
代码态开发
RAG Flow
Vector DB
CPU
9. DB4AI:向量数据库
8
10. 向量数据库典型场景
相似度检索
向量检索为主
语义搜索
文本和向量混合检索
RAG
检索结果给大模型总结
• 多模态检索 • 文档,向量混合搜索 • 知识库
• 推荐系统 • 多路召回,排序模型 • 客服
• 分类系统 有 : Cohere Rerank
和 BGE-Reranker
• 大模型记忆问答
11. RAG 每步的难点和要解决的问题
数据提取
结构化/半结构化数据
website
Database
数据索引
检 索
生 成
数据分块 Query 预处理 Prompt工程
• 按固定大小 • 意图识别 • Step by Step
• 按意图 • 同义词生成 • 针对场景优化
• 专有名词处理
Logs
APIs
非结构化数据
文档 音频
图片 视频
Embedding 召回 大模型能力
• BGE • 向量检索 • 理解
• text-
embedding-3
• CLIP
• 文本检索 • 生成
• 多路召回 • 逻辑
re-rank • 记忆
•
应 用
搜索
推荐
copilot
CoAI
12. RAG 在通用性和性价比上占据明显优势
• 推理能力更强
大
模
型
长
文
本
R
A
G
• 成本低
• 性能好,尤其是响应时延更好
• 问答稳定,解决大模型幻觉问题
• 复杂问题,安全问题处理更好
(复杂过滤,安全回答)
• 定位方便(大模型是黑盒)
13. RAG 应用场景:私域知识库
业务场景
基于大模型的推理能力,搭配向量数据库
私有数据召回能力,构建私域知识库
功能需求
统一的客户向量数据全生命周期管理
• 数据 embedding 管理
• 多模私域数据存储和检索管理
• 针对私域数据的向量标量混合检索
技术难点
• 向量模型的版本管理和全量更新
• 复杂的向量和标量混合查询条件支持
• 支持私有化部署,集群小型化部署
14. 传统数据库支持向量的缺陷
系统架构 传统数据库的系统架构针对标量字段处理设计,需要支持复杂的SQL计算,与
索引性能 传统数据库通过扩展向量字段,并基于开源 Faiss,nswlib,annoy 等来扩展
存储方案 传统数据库使用的向量检索库往往不具备实时做数据持久化,不能保障数据一
向量数据的 KNN 检索有很大差距,不能很好解决向量检索需求
向量索引,受原有架构影响,在写入效率,查询延时和并发性能上均存在瓶颈
致性
15. 百度AI原生向量数据库VectorDB
海量向量存储 /
高性能访问 /
• 分布式架构,支持百亿级向量规模和十万级分片数量 • 支持 HNSW/Puck/PQ 等高性能算法
• 同时支持向量数据和标量数据 • 毫秒级ANN向量检索延时
• 支持4096维的高维向量 • • 支持向量索引量化压缩 架构和数据引擎多方面工程优化,各场景性能均高于
开源产品 3~7.5倍
全栈LLM开发 /
弹性&高可用 /
• 支持主流的LLMs框架集成开发 • 提供弹性伸缩能力,最大上千节点
• 集成百度千帆 Embedding 模型,基于百度中文语料
并加入知识图谱进行训练,中文实体和短语性能好 • 分布式高可用架构,可用性 99.99%,RPO=0,
RTO=30s
• 内建自动化管理和监控
• 支持本地磁盘和云存储设施
16. VectorDB 技术体系
业务场景
文本检索&生成
相似图片检索
推荐系统
大模型推理
生态集成
大模型知识库
大模型框架集成 LLM
接入服务
访问接口 Interface
Restful API
多语言SDK
负载均衡 Load Balance 故障隔离 Failover
身份认证 Authentication 白名单 Firewall
纯向量检索
标量查询
标/向量混合检索
实时写入
向量存储
存储支持
二级索引
批量加载
标量存储
行存储
列存储
容器化部署
百度 CCE
K8S
第三方容器云
ChatGPT 千帆 国产芯片
Embedding模型调用
国产操作系统
集群元数据 meta
强一致策略
RPC通信 形式化验证
数据库
Database
表
Table
索引
Index
集群生命周期管理 DDL
访问控制管理 DCL
分区
Partition
用户体系
哈希索引 倒排索引 图结构索引 平台管理
FLAT PQ Baidu Puck HNSW 自动运维 Operation Automation
索引调度
Index Scheduler
虚拟机
Baidu BCC
索引重建
Index Rebuild 监控告警 Monitor & Alert
云原生服务 容灾备份 Backup & Recovery
公有云
私有云
副本
Replica
权限管理 RBAC
高精度索引
服务器部署
物理机
国产服务器
Raft共识协议
向量索引
数据模式 Data Schema
Llama Index 集群管理
异步同步
数据引擎
LangChain 分布式
查询检索
查询引擎 Query/Search Engine
信创平台支持 Platform
白名单 Audit
访问控制
17. 成熟的分布式架构
高可靠、高可用、强扩展、大规模
系统分为代理节点、数据节点和管理节点
• 代理节点:无状态&对等,支持负载均衡
• 管理节点:基于 Raft 协议的高可用设计,管理集群的物理拓扑、逻辑拓扑和数据库资源等
• 数据节点:负责数据的增删改、查询和检索等。基于Raft协议管理表/集合数据的分片及其副本,支持自动 Failover
和弹性伸缩等
18. 自研高性能数据引擎
数据类型
Schema 体系
• 支持强 Schema 模型,同时支持标量和向量数据类型
索 引
• 支持二级索引,支持各类向量索引
• 支持标量检索、向量检索和标量向量混合检索
数据存储与均衡
•
•
•
•
支持标量和向量数据的增删改以及批量处理
基于 LSM 模型,支持行存、列存、行列混存
支持 KV 分离存储模型
支持引擎内再分片以及细粒度向量索引调度
数据压缩
数据/控制接口
• 支持快照及恢复
• 支持数据多版本机制
硬件优化
• 支持指令集优化、CPU 硬件优化、编译器优化等
状态管理
表/集合
Segment 层
列族
Compaction调度 Segment路由
快照 恢复
列/字段
Storage 层
标量索引
• 支持压缩
数据备份恢复
Tablet 层
增/删/改/扫描/查询/检索/迭代器 接口
内存表 向量索引缓存
主键索引缓存 标量数据缓存
SSTable 文件 向量索引文件
向量索引
数据类型系统
19. 向量/标量混合检索
客户端
VectorDB 支持常见标量类型字段,并支持
向量和标量的混合检索 协议层 服务监听 HTTP 协议
VectorDB 执行引擎支持多种检索过滤机制: 解析器 语法分析 AST
检索预过滤
• 先按标量条件筛选
• 再在向量索引中进行 bitmap 过滤
• 最后对结果集进行向量相似性查询
逻辑执行计划
解析器
检索后过滤
元数据
统计信息
物理执行计划
检索时过滤
• 进行向量检索时同时按标量条件过滤
• 向量索引底层需支持数据过滤
RPC 协议
检索后过滤
执行器
检索结果
查询时过滤 Inline filter
• 先做相似性检索,再对结果集进行过滤
数据分段检索优化
• 按统计信息对索引分段采用不同过滤机制
存储服务
预过滤
标量索引
向量索引
20. 百度智能云 VectorDB 性能测试报告
VectorDB 和某开源系统的对比测试结果,性能(QPS)提升3倍到7.5倍
开源向量数据库
•
•
百度智能云 VectorDB
检索QPS或吞吐:系统在单位时间内能够处理的检索请求数量,是衡量检
索性能的关键指标
召回率:检索的TopK结果中,满足真实情况(KNN 检索)的TopK集合
的比例,是衡量向量检索精度的关键指标
开源向量数据库
百度智能云 VectorDB
• 测试方法:向量索引选择 HNSW,检索最相似 Top10 的向量
• 测试规格:数据节点4核8GB,数量为3个
• 数据集:SIFT128、COHERE768、GIST960三种维度的数据集,大小为
100万
• 数据表配置:数据表1个分区/分片,分片副本数为3
21. VectorDB 核心优势总结
【服务高可用】
分布式架构
•
【全栈 LLM 技术支撑】
完整数据库管控能力
弹性扩展能力
数据强同步
•
【海量数据检索】
RAFT一致性保障
故障自愈
百亿级高维度向量存储
• 数据全生命周期管理 • RTO<30 • 数据分片和多副本设计
• 360°性能监控和优化 • RPO=0 • 分布式 ANN 索引
百度文心全技术栈支撑
丰富的检索方式
• 领先的中文 Embedding 能力 • 向量检索
• 千帆大模型应用引擎支持 • 向量标量混合检索
• 全文检索&多路召回
【极致性价比控制】
内存开销降低90%
【国产信创支持】
代码自研
• 精细的内存开销控制 • 百度自研
• HNSW_PQ 算法支持 • 知识产权
高性能查询
信创平台全兼容
• 极致的检索性能优化 • 兼容国产主流 CPU
• 远超开源竞品的查询性能 • 兼容国产主流操作系统
22. AI4DB:数据库运维应用
21
23. DBSC 数据库智能驾驶舱服务全景
组织权限
自治
能力
模块权限
实例权限
DB权限
请求分析 查询治理 数据库审计
慢日志分析 查询治理趋势 高风险请求
全量请求分析 TOP 数据分析
列权限
Table权限
智能压测
智能巡检 智能领航员
任务创建 自动巡检 产品咨询
SQL 注入 压测控制 报告分析 待优化 SQL 访问来源分析 报告分析 风险提示 失败 SQL 合规报表
AI
增强
优化建议
知识检索
操
作
审
计
健康评分
大模型
仪
表
盘
数据源
实例监控 告警服务 事件中心
监控展示 告警配置 事件和建议
监控接入 告警模板 执行完事件
会话情况 告警规则 计划事件
MySQL
PostgreSQL
敏感数据管理
数
据
开
发
自动发现
脱敏规则
变更发布
备份回滚
SQLServer
手动配置
流程规范
Redis
定时发布
SQL规范
自定义审批
审批管理
数据归档
MongoDB
流程中心
消息通知
GaiaDB
… …
24. 智能领航员:数据库 copilot
智能运维
覆盖金融、
制造、科研
等行业头部
客户行业最
佳实践
百度多年来
汇聚数百名
数据库专家
经验
大模型相比
传统算法带
来了更好的
优化效果
智能开发
智能优化
25. 智能领航员原理
领域知识
文档加载 /
切分 / 强化
技术解决方案
Embedding
向量化
知识点
原理
用户问题
Embedding
向量化
问题向量
向量存储
领域
知识
相似度检索
Prompt
解答
LLM
QA / CoT
Top相关
知识点
Prompt
模板
方案
• 利 用 RAG ( Retrieval Augmented
Generation)技术,对大模型进行领
域知识增强
•
•
• 云产品文档
数据库官方文档
内部知识库积累
• 知识切分: 原 始 知识按 自然 段 落 、
chunk size等维度切分知识点
embedding : 文 心 千 帆 (ernie-
bot)、text2vec
向量数据库: VDB
•
•
效果
•
•
评价方式:对历史客户工单中的真实
问题进行回答后由人工打分(1-5分)
整体回复平均分超过4分
26. 未来展望
SaaS Copilot Agent
PaaS 文本大模型 多模态
IaaS 模型云端 模型本地化
27.