打造 AI 时代的一体化数据底座

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 打造 AI 时代的一体化数据底座 杨传辉 OceanBase CTO
2. 目录 01 OceanBase 一体化演进历程与架构升级 Contents 02 从一体化数据库到一体化 AI 数据底座 03 打造开发者友好的数据库产品
3. 01 OceanBase 一体化 演进历程与架构升级
4. OceanBase 一体化演进历程 架构 + 负载一体化演进 负载一体化 OLTP + OLAP + HTAP SQL + NoSQL + AI OLTP HTAP(OLTP + OLAP) 实时 AP V0.1-2.0 V3.0 发布 V4.2 发布 V4.3 发布 一体化 SQL 引擎 全面兼容 MySQL & Oracle RPO = 0 & RTO < 8 s TPC-C 707 M tpmC 向量化查询引擎 TPC-H 15.26 M QphH @ 30000 GB 兼容 KV、HBase 等 多种 NoSQL 列存引擎 近 PB 级秒级分析能力 2010-2018 架构一体化 单机分布式一体化 + 多云原生 SQL + NoSQL 2019 原生分布式 2021 2022 2023 单机分布式一体化 SQL + AI V4.3.3 发布 向量能力发布 SQL + AI 深度融合 2024 2025 多云原生 V1.0 发布 V4.0 发布 V4.3-4.4 水平扩展、多点写入、多租户 单机分布式一体化 多云原生,满足在不同云服务商的一致体验 跨云高可用,保障关键应用的连续性
5. OLTP:从分布式到单机的多元化场景 超越需求 智能化 核心业务系统 可扩展 高级需求 高可用 关键业务系统 易用性 进阶需求 兼容性 基础业务系统 基础性能 基础需求 安全可靠 部分非核心系统 基础功能 独占分布式 分布式+多租户 单机可承载 分布式对核心业务场景至关重要, 但在部分非核心系统中仍然存在单机需求。
6. OLAP:多种场景实践 分析性能达到一流水平 高并发、大小查询 中高并发,大查询 大查询、快速导入、外表 超大数据量、超大查询、 数据湖、大数据生态 HTAP 即时分析 数 据 量 AP 性能基准测试 某一流 OLAP 数据库 S** OceanBase 4.3.0 OceanBase 4.3.5.2 TPCH-100G 20.94s 31.15s 17.80s PB级离线数仓 全公司大数据系统 部署环境:32C 256G ecs.r8i.8xlarge * 对比数据仅针对本次测试 *
7. 一体化架构再升级 OceanBase 多云原生架构 OceanBase 4.4 即将开启:通过单一产品同时支持 Shared Nothing 与 Shared Storage One Engine. Two Architectures. Now Cloud-Native With Performance That Holds. Server1 Server2 Server3 Local disk Local disk Local disk Zone1 Zone2 Zone3 Tenant1 Tenant2 Tenant1 Tenant2 Tenant1 Tenant2 Cache Cache Cache Cache Cache Cache Server1 Server2 Zone1 Zone2 Shared Storage OSS/COS/OBS/S3 Region Region 架构升级 一个产品支持 Shared Nothing 和 Shared Storage 存算一体 适合需要低延迟和高吞吐量的高性能应用 存算分离 极致的资源弹性与成本优化,性能与可靠性的平衡 Server3 Zone3
8. OceanBase 共享存储正式发布 业界首个基于对象存储面向 OLTP 的多云原生数据库 极致性价比 Serverless 架构 多云原生 支持海量数据 相同的性能,1/2 - 1/10 的存储成本 存储与计算解耦 弹性伸缩,按量付费 全面支持 Amazon S3、阿里云 OSS 等 主流云厂商对象存储
9. 一道算术题:当工作负载从 EBS 迁移到 S3 对象存储 会发生什么? Snowflake 和 Databricks 革新了数据分析领域,OceanBase 现在正为事务处理领域带来同样的变革 存储架构 TP 工作负载 AP 工作负载 保持事务强一致性的同时,存储成本降至 1/2 支持大规模分析场景的同时,存储成本降至1/10 存储类型 每月每GB成本 OceanBase 存算一体架构 EBS (GP2) 云盘 OceanBase 存算分离架构 共享存储盘 EBS(GP2) + S3 标准版 $0.10 存储副本数量 ×3 每月成本 $30,000 存储架构 OceanBase 存算一体架构 存储类型 每月每GB成本 EBS (GP2)云盘 EBS (GP2)云盘 $0.12 存储节省成本 ×1 $12,000 OceanBase 存算分离架构 S3 标准版( 按量付费) 每月成本 $0.10 ×3 $30,000 $0.10 ×1 $1,000 $0.023 ×1 $2,300 Total 60% 100 TB 数据存储成本估算 根据业务自选数据缓存比例, 以10%为例 存储副本数量 $3,300 存储节省成本 89.0% 100 TB 数据存储成本估算
10. 02 从一体化数据库到 一体化 AI 数据底座
11. 大模型落地面临成本、准确性和数据安全三大挑战 训练 与推理成本 模型准确性 与可解释性 数据隐私 与安全
12. 大模型落地产生价值的核心在于数据与模型的一体化融合 AI Value = Data 价值性 Value Model 工程力 产品力 准确性 Accuracy 实时性 Velocity 性能 Performance 多样性 Variety 行业适配性 Adaptability 大量性 Volume 成本 Cost x Usage
13. Data x AI:从一体化数据库到一体化数据处理底座 Bring Data to AI:通过数据提升准确度,让大模型更加准确,降低推理成本 Bring AI to Data:将 AI 集成到数据库,实现 SQL+AI 混合计算,产生化学反应 :暂未规划 :已经或即将支持 交付形态 数据库一体机 云服务 独立软件 智能管理平台 (AI for DB) 通用AI应用 应用层 AI 一体机 OceanBase 智能运维 第三方AI应用 OceanBase 智能开发 OceanBase 智能助手 OceanBase 智能知识库 Agent 平台(三方 RAG) 一体化数据 AI 处理平台 数据开发 平台层 + AI DB 集成 基础模型 调度 非结构化数据 (文本、图片、视频) 精准数据 RAG 后训练 AI 函数 半结构化数据 (JSON、XML、Graph、Vector) 模型推理 精准模型 文本检索 向量检索 混合查询 结构化数据 (关系表) 基础设施 对象储存 块储存 ECS 算力 CPU GPU NPU
14. 向量性能现场演练 OceanBase vs. 业界主流开源向量数据库 * 对比结果数据仅针对本次测试 *
15. OceanBase 向量性能已达到开源向量数据库业界领先水平
16. 成本大幅节约: 引入BQ量化算法 同等召回率&性能 内存成本较HNSW降低 95% HNSW HNSW + BQ 1.2TB 内存 58.6GB 内存 向量数量:2亿 向量维度:OpenAI 1536维 最低的成本,最好的性能
17. 海量向量数据处理 向量计算 内存:量化向量 磁盘:原始向量 高频访问,常驻内存,极致性能 低频访问,按需加载,极致成本 • 分层向量计算: 量化向量粗算(内存加 速)、原始向量精算(磁盘降本),保证 性能的同时,支撑海量向量数据处理。 稳定性 • 半结构化数据压缩:自研半结构化数据编 码,TPC-H 数据 JSON 化后,存储成本 降低至 MongoDB 的1/3,未来可用在 原始向量编码压缩。 一体化存储 表格(行存 / 列存) 支持半结构化数据:JSON、GIS、向量等 可靠性 单机 分布式 低成本 本地存储 共享存储 易使用
18. 业内领先的混合检索能力 先计算向量还是标量? 先算向量数据会不会少? RAG 等场景能否一条 SQL 完成多路查询? 一条SQL 标量查询(数据库) Hybrid Search Optimizer 后过滤 暴力搜索 Hybrid Search 前过滤 后过滤 前过滤 向量查询(向量库) 标量索引 标量 Bitmap 标量迭代器 一行数据 标量 向量索引 全文索引 文本 空间索引 空间 JSON 多值索引 JSON OceanBase 数据库 更快 更准 更易用 丰富的执行策略 基于代价的自动选择性能最好计划 自研向量算法库 深度和数据库集成,兼顾查询效率&准确性 内核级多模混合查询 更丰富的“模”做更有效率的融合查询 …….
19. OceanBase PowerRAG 正式发布 打造面向 AI 时代开箱即用的 RAG 服务 开箱即用 快速上手 精简开发 聚焦业务 业界主流 RAG 应用性能水平 零配置即用 快速集成到现有应用 解放开发者生产力 支持复杂场景无代码膨胀 可靠的上下文召回率 可信度和事实正确性 OB Cloud 预览版同步上线,云端即刻体验
20. OceanBase Data x AI Landscape General Assistant Code Assistant Search Engine Agent Framework Memory Tools Host Platform Inference Engine Observability API Framework Model Serving Data Integration Storage & Vector 阿里云百炼 腾讯元宝 豆包 OpenAI DeepSeek 硅基流动 智谱清言 Anthropic Hugging Face ……
21. 全面支持MCP,构建智能体开发新范式 Claude 控制台 OceanBase MCP Server 工作流 基于 OCP MCP Server 查询集群 CPU 使用率示例 LLM Client (Claude, Cline) 2025.02 OceanBase MCP Server 发布 Other MCP Server A OceanBase On-Premises Other MCP Server B OB Cloud Other MCP Server C Other 2025.04 MCP - OCP 2025.03 MCP - Install 2025.07 MCP - obdiag 2025.06 MCP – k8s operator
22. 联通软研院:基于 OceanBase 的 RAG 应用落地 联 通 软 研 院 ◆ 多数据库版本管理困难 ◆ 生产环境需稳定 ◆ 运维效率需提升 数据库智能专家 ChatDBA 平台管理员 文档知识库 用户 文档切片 RAG 联通软研院-数据库 AI 助手 企业知识库 + RAG,汇聚专家知识与运维数据 自然语言智能问答,提供高质量的技术咨询 Vector Embedding Model 向量嵌入模型将数据转化为语义向量 ✔️ 降低数据库使用门槛 Vector Search 多维语义 关联查询 LLM 基于问题与关联 信息进行检索 理解并生成 自然语言 基于向量相似度快速检索数据 ✔️ 提升数据库管理运维效率 OceanBase 分布式数据库 联通软研院“ChatDBA” RAG 架构示意图 联通元景大模型
23. 三维家:基于 OceanBase 的多模态检索 客服系统知识库 三 维 家 ◆ MySQL+向量库,同步链路长 ◆ 元数据过滤能力缺乏 ◆ 维护成本高 自然语言提问 基于 OceanBase 的多模态业务场景 企业知识库+多模态,带图问答,智能客服更清晰; 素材搜索+多模态,图搜图+文搜图,搜索效果更准确; 智能客服 带图解答 一体化简单架构,开发效率提升 30% ✔️ 多模态智能客服 图搜图&文搜图 ✔️ 素材搜索 ✔️ 效果图搜索 素材搜索
24. in银泰商业:基于 OceanBase 打造零售业智能问数平台 in 银 泰 商 业 ◆ 在营客流3亿/年,销售350亿/年 ◆ TB 级业务数据规模 ◆ 依赖经验分析,决策支撑困难 智能问数平台 RAG + LLM,实时数据快速分析,AI 智能辅助科学决策 NL2SQL,自然语言交互,秒级结果输出,问数更简单 ✔️ 门店日常数据查询与经营分析 ✔️ 门店业绩对标分析与经营问诊 ✔️ 集团预算管理与业绩分析
25. AI for OceanBase:数据管理和使用全面革新 DB工具 Agent化、 接口MCP化 OB Cloud 助手 AI函数 智能知识库 OB MCP Server 性能 诊断 易于 学习 +智能助手 易于 操作 AI in SQL LLM OAS+ 参数推荐 告警分析 异常 诊断 混合运算 OMA+ 表结构推荐 慢查询优化 OceanBase 自然语言查询 ODC+ 索引推荐 OCP+ 根因定位 故障自愈 文档/ 知识库/ 知识图谱 智能数据库 =(智能内核 + 智能工具)x LLM obdiag+
26. 易于学习:基于 PowerRAG 的 OceanBase AI 助手 OceanBase Vector + PowerRAG + 内置知识库,实现智能问答、智能分析 咨询:RAG with Reasoning 回复 问题 回复 问题 PowerRAG 结合问题和提示词 进行多轮迭代 LLM 通义千问/ DeepSeek /豆包/自定义 知识相关 OceanBase 诊断:RAG with Tool
27. 易于开发:智能化 ODC 让 SQL 更简单 场景应用 功能分布 SQL Copilot 辅助复杂 SQL 编写 & SQL 调优示例 “OceanBase 支持哪些分区类型?” 知识问答 NL2SQL 智能问数 智能变更 智能图表 智能分析 “2025 年 4 月的销售额前 10 的分店有哪些?” “为 mit_stock 表生成 10000 行的测试数据” “查询统计最近 10 个月的服饰类产品销量情 况,并生成柱状图,按销量排序” 零上手成本 多云、跨云 One Meta 多场景支持 高效协同 SQL 旅程 自然语言 输入意图 一键智能生成 SQL 可视化 执行 SQL 自然语言转 SQL 包含 SQL 美化 SQL 调优 执行报错 智能错误分析 执行耗时高 智能 SQL 性能剖析 正常执行 智能生成图表 多维分析 智能生成报表
28. 易于诊断: Multi-Agent 诊断智能体,更快、更准、更智能 OceanBase 自治服务:一键智能诊断示例 容量诊断 Agent 可观测平台 结构优化 重写查询 识别拦截 SQL诊断 Agent 异常 事件 索引推荐 限速限流 Multi-Agent 一键诊断 安全诊断 Agent 经验驱动 -> AI 驱动 OceanBase 诊断智能体 自动扩容 事务诊断 Agent 计划绑定 全链路监控 错误 日志 参数优化
29. 03 打造开发者友好的 数据库产品
30. 为开发者带来更易用的产品形态 2021 2022 第一个开源版本发布 产品小型化 生态工具全面加强 • 兼容 MySQL 5.7 • 支持 2C6G 资源规格 • 全面开放数据库生态工具 OCP/OMS/ODC 等 • 支持白屏安装 • 20+ 生态工具适配 • 支持 ARM 平台,支持 K8s 容器编排 • 2 分钟一键安装部署 • 50+ 生态工具适配 2023 2024 MySQL 兼容全面加强 打造“新一代 MySQL” • 兼容 MySQL 8.0 关键特性,扩展 DBLink 功能 • 社区版 4.2.5 和 4.3.5 LTS 发布 • 开源 ODC、OCP Express、obdiag • 建立 OUG 与 SIG 组织,与用户共 建场景和工具 • 全链路诊断产品化 • 500+ 生态工具适配 • 一体化 TP、AP、KV 能力全面加强 • 根自研 “ MySQL ” 生态圈, 800+ 主流生态产品对接 2025?
31. OceanBase 桌面版发布 更轻量、更轻快、更简单 只需点击安装包,1 分钟内完成安装部署 Windows:支持 Windows x86_64架构 Before 基于 Docker 部署,Docker 导致系统开销高 下载速度慢 黑屏安装,步骤复杂 启动慢,普通模式 2 分钟 • • • • After Mac: 支持 Mac Apple Silicon 和 Intel 芯片 • • • • • 直接使用操作系统虚拟化技术,降 低开销 官网快速下载 1 分钟内完成一键安装部署 30 秒快速启动 新增功能:支持图形化管控界面
32. OceanBase 已成为最流行的中国数据库 • • 连续两年“墨天轮中国数据库流行度排行”第一 DB-Engines Ranking 总排名 102,关系型数据库 51 声量 集群部署 52K+,年环比增长近 400% 1.5K+ 企业选择社区版用于生产系统 1M+ 社区版被用户下载 • • • 社区版 用户 社区 活跃度 • • 论坛帖子 121K+,每周帖子新增 1.5K+ 技术博文 1.8K+,博主 200+ • • 1.2K+ 系统集成或适配 连续举办 4 届 OceanBase 数据库大赛, 覆盖 9K+ 名学生 OceanBase 共建开发者 • • 1333位 GitHub contributor 7 个特别兴趣小组(SIG),obdiag 外部 贡献者占 78%,代码贡献占 30% 生态合作
33. 多云原生架构:让开发者在全球主流云上无缝使用 OceanBase 更多的云基础设施 更灵活的架构 更开放的生态 一致性的跨云体验 从存算一体到存算分离 深入融合多云原生技术栈 阿里云 华为云 腾讯云 百度智能云 … Google Cloud Shared Nothing & Shared Storage 根据需求灵活选择架构 对象存储 创新架构 Dataworks 更高的扩展性与弹性 QuickBI DataV Flink Glue ODPS Oceanus Bedrock COS …
34. OceanBase 即将开启 TP+AP+AI 真正的一体化产品形态
35. 谢谢

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-22 06:10
浙ICP备14020137号-1 $访客地图$