打造 AI 时代的一体化数据底座
如果无法正常显示,请先停止浏览器的去广告插件。
1. 打造 AI 时代的一体化数据底座
杨传辉
OceanBase CTO
2. 目录
01 OceanBase 一体化演进历程与架构升级
Contents
02 从一体化数据库到一体化 AI 数据底座
03 打造开发者友好的数据库产品
3. 01
OceanBase 一体化
演进历程与架构升级
4. OceanBase 一体化演进历程
架构 + 负载一体化演进
负载一体化
OLTP + OLAP + HTAP
SQL + NoSQL + AI
OLTP
HTAP(OLTP + OLAP)
实时 AP
V0.1-2.0 V3.0 发布 V4.2 发布 V4.3 发布
一体化 SQL 引擎
全面兼容 MySQL & Oracle
RPO = 0 & RTO < 8 s
TPC-C 707 M tpmC 向量化查询引擎
TPC-H 15.26 M QphH @
30000 GB 兼容 KV、HBase 等
多种 NoSQL 列存引擎
近 PB 级秒级分析能力
2010-2018
架构一体化
单机分布式一体化 + 多云原生
SQL + NoSQL
2019
原生分布式
2021
2022
2023
单机分布式一体化
SQL + AI
V4.3.3 发布
向量能力发布
SQL + AI 深度融合
2024
2025
多云原生
V1.0 发布 V4.0 发布 V4.3-4.4
水平扩展、多点写入、多租户 单机分布式一体化 多云原生,满足在不同云服务商的一致体验
跨云高可用,保障关键应用的连续性
5. OLTP:从分布式到单机的多元化场景
超越需求 智能化
核心业务系统 可扩展
高级需求 高可用
关键业务系统 易用性
进阶需求 兼容性
基础业务系统 基础性能
基础需求 安全可靠
部分非核心系统 基础功能
独占分布式
分布式+多租户
单机可承载
分布式对核心业务场景至关重要,
但在部分非核心系统中仍然存在单机需求。
6. OLAP:多种场景实践 分析性能达到一流水平
高并发、大小查询
中高并发,大查询
大查询、快速导入、外表
超大数据量、超大查询、
数据湖、大数据生态
HTAP
即时分析
数
据
量
AP 性能基准测试 某一流 OLAP 数据库
S** OceanBase
4.3.0 OceanBase
4.3.5.2
TPCH-100G 20.94s 31.15s 17.80s
PB级离线数仓
全公司大数据系统
部署环境:32C 256G ecs.r8i.8xlarge
* 对比数据仅针对本次测试 *
7. 一体化架构再升级 OceanBase 多云原生架构
OceanBase 4.4 即将开启:通过单一产品同时支持 Shared Nothing 与 Shared Storage
One Engine. Two Architectures. Now Cloud-Native With Performance That Holds.
Server1
Server2
Server3
Local disk Local disk Local disk
Zone1 Zone2 Zone3
Tenant1 Tenant2 Tenant1 Tenant2 Tenant1 Tenant2
Cache Cache Cache Cache Cache Cache
Server1 Server2
Zone1 Zone2
Shared Storage
OSS/COS/OBS/S3
Region
Region
架构升级 一个产品支持 Shared Nothing 和 Shared Storage
存算一体 适合需要低延迟和高吞吐量的高性能应用
存算分离 极致的资源弹性与成本优化,性能与可靠性的平衡
Server3
Zone3
8. OceanBase 共享存储正式发布
业界首个基于对象存储面向 OLTP 的多云原生数据库
极致性价比 Serverless 架构 多云原生
支持海量数据
相同的性能,1/2 - 1/10 的存储成本 存储与计算解耦
弹性伸缩,按量付费 全面支持 Amazon S3、阿里云 OSS 等
主流云厂商对象存储
9. 一道算术题:当工作负载从 EBS 迁移到 S3 对象存储 会发生什么?
Snowflake 和 Databricks 革新了数据分析领域,OceanBase 现在正为事务处理领域带来同样的变革
存储架构
TP 工作负载 AP 工作负载
保持事务强一致性的同时,存储成本降至 1/2 支持大规模分析场景的同时,存储成本降至1/10
存储类型
每月每GB成本
OceanBase
存算一体架构 EBS (GP2) 云盘
OceanBase
存算分离架构 共享存储盘
EBS(GP2) + S3 标准版
$0.10
存储副本数量
×3
每月成本
$30,000
存储架构
OceanBase
存算一体架构
存储类型
每月每GB成本
EBS (GP2)云盘
EBS (GP2)云盘
$0.12
存储节省成本
×1
$12,000
OceanBase
存算分离架构
S3 标准版( 按量付费)
每月成本
$0.10 ×3 $30,000
$0.10 ×1 $1,000
$0.023 ×1 $2,300
Total
60%
100 TB 数据存储成本估算
根据业务自选数据缓存比例,
以10%为例
存储副本数量
$3,300
存储节省成本
89.0%
100 TB 数据存储成本估算
10. 02
从一体化数据库到
一体化 AI 数据底座
11. 大模型落地面临成本、准确性和数据安全三大挑战
训练
与推理成本
模型准确性
与可解释性
数据隐私
与安全
12. 大模型落地产生价值的核心在于数据与模型的一体化融合
AI Value
=
Data
价值性 Value
Model
工程力
产品力
准确性 Accuracy
实时性 Velocity 性能 Performance
多样性 Variety 行业适配性 Adaptability
大量性 Volume 成本 Cost
x
Usage
13. Data x AI:从一体化数据库到一体化数据处理底座
Bring Data to AI:通过数据提升准确度,让大模型更加准确,降低推理成本
Bring AI to Data:将 AI 集成到数据库,实现 SQL+AI 混合计算,产生化学反应
:暂未规划
:已经或即将支持
交付形态
数据库一体机
云服务
独立软件
智能管理平台 (AI for DB)
通用AI应用
应用层
AI 一体机
OceanBase 智能运维
第三方AI应用
OceanBase 智能开发
OceanBase 智能助手
OceanBase 智能知识库
Agent 平台(三方 RAG)
一体化数据 AI 处理平台
数据开发
平台层
+
AI DB
集成
基础模型
调度
非结构化数据
(文本、图片、视频)
精准数据
RAG
后训练
AI 函数
半结构化数据
(JSON、XML、Graph、Vector)
模型推理
精准模型
文本检索
向量检索
混合查询
结构化数据
(关系表)
基础设施 对象储存 块储存 ECS
算力 CPU GPU NPU
14. 向量性能现场演练
OceanBase vs. 业界主流开源向量数据库
* 对比结果数据仅针对本次测试 *
15. OceanBase 向量性能已达到开源向量数据库业界领先水平
16. 成本大幅节约: 引入BQ量化算法
同等召回率&性能
内存成本较HNSW降低 95%
HNSW HNSW + BQ
1.2TB 内存 58.6GB 内存
向量数量:2亿
向量维度:OpenAI 1536维
最低的成本,最好的性能
17. 海量向量数据处理
向量计算
内存:量化向量 磁盘:原始向量 高频访问,常驻内存,极致性能 低频访问,按需加载,极致成本 • 分层向量计算: 量化向量粗算(内存加
速)、原始向量精算(磁盘降本),保证
性能的同时,支撑海量向量数据处理。
稳定性 • 半结构化数据压缩:自研半结构化数据编
码,TPC-H 数据 JSON 化后,存储成本
降低至 MongoDB 的1/3,未来可用在
原始向量编码压缩。
一体化存储
表格(行存 / 列存)
支持半结构化数据:JSON、GIS、向量等
可靠性
单机 分布式 低成本
本地存储 共享存储 易使用
18. 业内领先的混合检索能力
先计算向量还是标量?
先算向量数据会不会少?
RAG 等场景能否一条 SQL 完成多路查询?
一条SQL
标量查询(数据库)
Hybrid Search Optimizer
后过滤
暴力搜索
Hybrid Search
前过滤
后过滤
前过滤
向量查询(向量库)
标量索引
标量 Bitmap
标量迭代器
一行数据
标量
向量索引
全文索引
文本
空间索引
空间
JSON 多值索引
JSON
OceanBase 数据库
更快 更准 更易用
丰富的执行策略
基于代价的自动选择性能最好计划 自研向量算法库
深度和数据库集成,兼顾查询效率&准确性 内核级多模混合查询
更丰富的“模”做更有效率的融合查询
…….
19. OceanBase PowerRAG 正式发布
打造面向 AI 时代开箱即用的 RAG 服务
开箱即用 快速上手 精简开发 聚焦业务 业界主流 RAG 应用性能水平
零配置即用
快速集成到现有应用 解放开发者生产力
支持复杂场景无代码膨胀 可靠的上下文召回率
可信度和事实正确性
OB Cloud 预览版同步上线,云端即刻体验
20. OceanBase Data x AI Landscape
General Assistant
Code Assistant
Search Engine
Agent Framework
Memory
Tools
Host Platform
Inference Engine
Observability
API Framework
Model Serving
Data Integration
Storage & Vector
阿里云百炼 腾讯元宝 豆包 OpenAI
DeepSeek 硅基流动 智谱清言 Anthropic
Hugging Face
……
21. 全面支持MCP,构建智能体开发新范式
Claude 控制台
OceanBase MCP Server 工作流
基于 OCP MCP Server 查询集群 CPU 使用率示例
LLM
Client
(Claude, Cline)
2025.02
OceanBase MCP
Server 发布
Other
MCP Server A OceanBase
On-Premises
Other
MCP Server B OB Cloud
Other
MCP Server C Other
2025.04
MCP - OCP
2025.03
MCP - Install
2025.07
MCP - obdiag
2025.06
MCP – k8s operator
22. 联通软研院:基于 OceanBase 的 RAG 应用落地
联
通
软
研
院
◆ 多数据库版本管理困难
◆ 生产环境需稳定
◆ 运维效率需提升
数据库智能专家 ChatDBA
平台管理员
文档知识库
用户
文档切片
RAG
联通软研院-数据库 AI 助手
企业知识库 + RAG,汇聚专家知识与运维数据
自然语言智能问答,提供高质量的技术咨询
Vector Embedding Model
向量嵌入模型将数据转化为语义向量
✔️ 降低数据库使用门槛
Vector Search
多维语义
关联查询 LLM
基于问题与关联
信息进行检索 理解并生成
自然语言
基于向量相似度快速检索数据
✔️ 提升数据库管理运维效率
OceanBase 分布式数据库
联通软研院“ChatDBA” RAG 架构示意图
联通元景大模型
23. 三维家:基于 OceanBase 的多模态检索
客服系统知识库
三
维
家
◆ MySQL+向量库,同步链路长 ◆ 元数据过滤能力缺乏
◆ 维护成本高
自然语言提问
基于 OceanBase 的多模态业务场景
企业知识库+多模态,带图问答,智能客服更清晰;
素材搜索+多模态,图搜图+文搜图,搜索效果更准确;
智能客服
带图解答
一体化简单架构,开发效率提升 30%
✔️ 多模态智能客服
图搜图&文搜图
✔️ 素材搜索
✔️ 效果图搜索
素材搜索
24. in银泰商业:基于 OceanBase 打造零售业智能问数平台
in
银
泰
商
业
◆ 在营客流3亿/年,销售350亿/年 ◆ TB 级业务数据规模 ◆ 依赖经验分析,决策支撑困难
智能问数平台
RAG + LLM,实时数据快速分析,AI 智能辅助科学决策
NL2SQL,自然语言交互,秒级结果输出,问数更简单
✔️ 门店日常数据查询与经营分析
✔️ 门店业绩对标分析与经营问诊
✔️ 集团预算管理与业绩分析
25. AI for OceanBase:数据管理和使用全面革新
DB工具
Agent化、
接口MCP化
OB Cloud
助手
AI函数
智能知识库
OB MCP
Server
性能
诊断
易于
学习
+智能助手
易于
操作
AI in SQL
LLM
OAS+
参数推荐
告警分析
异常
诊断
混合运算
OMA+
表结构推荐
慢查询优化
OceanBase
自然语言查询
ODC+
索引推荐
OCP+
根因定位
故障自愈
文档/
知识库/
知识图谱
智能数据库 =(智能内核 + 智能工具)x LLM
obdiag+
26. 易于学习:基于 PowerRAG 的 OceanBase AI 助手
OceanBase Vector + PowerRAG + 内置知识库,实现智能问答、智能分析
咨询:RAG with Reasoning
回复
问题
回复
问题
PowerRAG
结合问题和提示词
进行多轮迭代
LLM
通义千问/ DeepSeek /豆包/自定义
知识相关
OceanBase
诊断:RAG with Tool
27. 易于开发:智能化 ODC 让 SQL 更简单
场景应用
功能分布
SQL Copilot 辅助复杂 SQL 编写 & SQL 调优示例
“OceanBase 支持哪些分区类型?”
知识问答 NL2SQL 智能问数
智能变更 智能图表 智能分析
“2025 年 4 月的销售额前 10 的分店有哪些?”
“为 mit_stock 表生成 10000 行的测试数据”
“查询统计最近 10 个月的服饰类产品销量情
况,并生成柱状图,按销量排序”
零上手成本
多云、跨云
One Meta
多场景支持
高效协同
SQL 旅程
自然语言
输入意图
一键智能生成 SQL
可视化
执行 SQL
自然语言转 SQL
包含
SQL 美化
SQL 调优
执行报错
智能错误分析
执行耗时高
智能 SQL 性能剖析
正常执行
智能生成图表
多维分析
智能生成报表
28. 易于诊断: Multi-Agent 诊断智能体,更快、更准、更智能
OceanBase 自治服务:一键智能诊断示例
容量诊断
Agent
可观测平台
结构优化
重写查询
识别拦截
SQL诊断
Agent
异常
事件
索引推荐
限速限流
Multi-Agent
一键诊断
安全诊断
Agent
经验驱动 -> AI 驱动
OceanBase 诊断智能体
自动扩容
事务诊断
Agent
计划绑定
全链路监控
错误
日志
参数优化
29. 03
打造开发者友好的
数据库产品
30. 为开发者带来更易用的产品形态
2021
2022
第一个开源版本发布 产品小型化
生态工具全面加强
• 兼容 MySQL 5.7 • 支持 2C6G 资源规格
• 全面开放数据库生态工具
OCP/OMS/ODC 等 • 支持白屏安装
• 20+ 生态工具适配 • 支持 ARM 平台,支持 K8s 容器编排
• 2 分钟一键安装部署
• 50+ 生态工具适配
2023
2024
MySQL 兼容全面加强 打造“新一代 MySQL”
• 兼容 MySQL 8.0 关键特性,扩展
DBLink 功能 • 社区版 4.2.5 和 4.3.5 LTS 发布
• 开源 ODC、OCP Express、obdiag • 建立 OUG 与 SIG 组织,与用户共
建场景和工具
• 全链路诊断产品化
• 500+ 生态工具适配
• 一体化 TP、AP、KV 能力全面加强
• 根自研 “ MySQL ” 生态圈,
800+ 主流生态产品对接
2025?
31. OceanBase 桌面版发布
更轻量、更轻快、更简单
只需点击安装包,1 分钟内完成安装部署
Windows:支持 Windows x86_64架构
Before
基于 Docker 部署,Docker 导致系统开销高
下载速度慢
黑屏安装,步骤复杂
启动慢,普通模式 2 分钟
•
•
•
•
After
Mac: 支持 Mac Apple Silicon 和 Intel 芯片
•
•
•
•
•
直接使用操作系统虚拟化技术,降
低开销
官网快速下载
1 分钟内完成一键安装部署
30 秒快速启动
新增功能:支持图形化管控界面
32. OceanBase 已成为最流行的中国数据库
•
•
连续两年“墨天轮中国数据库流行度排行”第一
DB-Engines Ranking 总排名 102,关系型数据库 51
声量
集群部署 52K+,年环比增长近 400%
1.5K+ 企业选择社区版用于生产系统
1M+ 社区版被用户下载
•
•
•
社区版
用户
社区
活跃度
•
• 论坛帖子 121K+,每周帖子新增 1.5K+
技术博文 1.8K+,博主 200+
•
• 1.2K+ 系统集成或适配
连续举办 4 届 OceanBase 数据库大赛,
覆盖 9K+ 名学生
OceanBase
共建开发者
•
•
1333位 GitHub contributor
7 个特别兴趣小组(SIG),obdiag 外部
贡献者占 78%,代码贡献占 30%
生态合作
33. 多云原生架构:让开发者在全球主流云上无缝使用 OceanBase
更多的云基础设施 更灵活的架构 更开放的生态
一致性的跨云体验 从存算一体到存算分离 深入融合多云原生技术栈
阿里云
华为云
腾讯云
百度智能云
…
Google Cloud
Shared Nothing &
Shared Storage
根据需求灵活选择架构
对象存储
创新架构 Dataworks
更高的扩展性与弹性 QuickBI
DataV
Flink
Glue
ODPS
Oceanus
Bedrock
COS
…
34. OceanBase 即将开启
TP+AP+AI 真正的一体化产品形态
35. 谢谢