中国联通如何用 OceanBase 重塑数据库的智能运维未来

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 中国联通如何用 OceanBase 重塑数据库的智能运维未来 邱永刚 中国联通软件研究院 OceanBase 研发负责人
2. 目录 01 数据库产品体系建设 Contents 02 数据库平台智能运维建设 03 OceanBase 赋能智能运维
3. 01 数据库产品体系建设
4. 自主可靠战略 XC 改造进入深水区,从电子公文向全行业、全栈云服务演进,2027 年全面完成落地 推进单位 中办 国办 2022 年 初 核心技术自主可靠指导 财政部 工信部 XC工委会 测评单位 中国联通作为首批试点央企,率先开展内部系统自主可靠战略,最早开 始实施改造的单位之一。 政府XC采购 标准规范 标准测评机构 18 大行业 (党政、金融、电信、电力等) 2022 年-2027 年 推广到电子政府等 18大 行业:各行业部门可制定各自的标准、规范 以 CPU 为核心的名录 2022年以前 2022年12月 2023年Q1 全面开展改造工作 2025年 全面行业完成 2027年
5. 自研 + 商用数据库产品体系 从 XC 政策、应对 MySQL 5.7 停服风险、降低商用依赖以及提升软研院软实力等几方面综合考虑,选定基于开源 OceanBase 数据库打造自研分 布式 CUDB 产品,聚焦数据库产品生态工具方面能力的补齐和人员能力的提升。同时,引进了 OceanBase、达梦、海量 vastbase、中兴 GoldenDB 等多款商用数据库产品,形成自研+商用的数据库产品体系,解决数据库核心技术问题,助力集团 XC 替代。 应用 场景 自治 服务 非核心业务系统 离线数据 MySQL 数据库全量替代 新上应用尽量采用 CUDB 泛数据库自治服务 CDAS 外部应用 数据库管理 数据库运维 数据库运营 数据库监控 交付中心 运维中心 卸载中心 感知中心 操作中心 恢复中心 迁移中心 决策中心 分布式 CUDB 数据库产品 产品 能力 商用数据库 开源数据库 集群模式 分布式引擎 故障无感知切换 OceanBase 海量 MySQL8 多副本容灾 多租户隔离 安全管控 达梦 中兴 RocketMQ 语法高兼容 内存转储 ... RDS DRDS ES 计算(RUNC/KATA/KVM) 存储(CEPH/LVM) 麒麟 x86 + Open Power 网络(OVS/OVN/DPDK) 统信 UOS + ARM(鲲鹏+飞腾)
6. 泛数据库自治服务 CDAS 工具体系 为屏蔽底层数据库差异,提供统一操作与运维视图,自研打造跨产品融合、全场景驾驭的数据库自治服务工具,实现数据库的 全生命周期自治化管理,减少人工干预,提高数据库性能、稳定性和安全性,人人都是 DBA。 应用开发者 DBA 数据开发 业务运营 整合各种泛数据库类型共 12 款数据库,其中国产数据库 6 款,简化多源数据库管 理复杂性,保障应用平稳过渡。 泛数据库自治服务工具 CDAS 数据库操作 兼容多种国产数据库 数据库运维 统一访问权限管理 操作权限多级管控 数据变更管控 SQL 审核优化 监控告警&异常分析 会话/锁/事务管理 数据备份&恢复 慢 SQL 优化治理 可视化查询与管理 操作审计 变更自动备份&恢复 敏感数据管理 健康巡检&性能快照 数据库优化治理 误操作精准恢复 全量 SQL 审计 数据复制 安全可靠 产品自研率 100%,具备全栈国产适配条件(包含数据库、操作系统等) 数据库智能专家 结构复制 双向复制 数据卸载 数据迁移 智能SQL开发 智能SQL审核优化 异构SQL转换 参数检查优化 强大的运维能力 结构对比 数据同步 双活数据稽核 同步链路可视化 产品诊断定位 索引检查优化 应急预案推荐 问题/故障恢复 集成化的权限管理、 SQL 审核优化、智能监控、慢 sql 跟踪与分析、数 据备份恢复等功能,在日常维护还是紧急故障处理中提供强有力的支持 数据采集(日志、SQL、参数、锁等) 数据分析、机器学习、算法、大模型 专家经验 高智能化水平 数据库集 RDS DRDS MQ ES MySQL 分布式CUDB OceanBase VastBase DM8 GoldenDB 人大金仓KingbaseES ...... 数据库智能专家 ChatDBA 提供数据库问题咨询、SQL 优化、运维排障 服务,助力应用 XC 替代
7. 02 数据库平台智能运维建设
8. 数据库智能专家 ChatDBA 聚焦数据库 DevOps 全生命周期,将 AI 大模型与数据库专家经验结合,建立智能数据库专家,降低数据库使用门槛、提升数据库运维效率 XC替代 应用研发 场景应用层 设计/实施 工具层 数据库运维 数据库支撑 开发/测试 上线 运维 运营优化 概念模型设计 SQL 生成/补全 SQL 审核 可观测数据查询 线上 SQL 调优 逻辑结构设计 SQL 优化 参数检查优化 查配置信息 对象结构调优 物理结构设计 SQL 转代码 索引检查优化 问题/故障定位 空间使用调优 创建库表落地 异构 SQL 转换 问题/故障恢复 配置调优 DBA知识问答 多轮会话 RAG 检索增强 向量模型 向量 数据库 日志工具 监控工具 流程编排引擎 多 Agent 编排调度引擎 服务层 数据库 Agent 监控 Agent CMDB Agent 日志 Agent 报告 Agent 根因推断 Agent 大语言模型 数据层 怀来 Planner Agent SQL 执行工具 微调模型 公共数据(外部数据) 联通内部数据(数据库相关) XC资源池 飞天资源池 西咸 无锡 怀来 西咸 无锡 ... ... ...
9. 场景一:数据库开发 智能 SQL 分析+专家经验结合,通过 Text2Sql、SQL 转代码、异构 SQL 转换等功能,降低非开发人员使用、管理数据库的门槛,提升开发效率 与数据管理能力,带来跨数据库操作的便捷体验,助力用户高效管理多样数据库环境 自然语言输入 手动编写大量的 SQL 语句, 数据库开发 执行结果返回 指令识别与分解 Agent 调度 专业的数据库模型 数据库工具集 基于元景大模型,结合 Spider、WikiSQL,AntSQL 等数据集进行微调,使得 LLM 具备专业的数据库开发 领域知识 这不仅耗时而且容易出错 数据库智能体 数据库学习曲线陡峭,需要花 工具调用 元数据获取 SQL 解析 Prompt 生成 执行计划获取 SQL 审核 费大量时间熟悉和掌握 Action 权限检测 SQL 执行 SQL 语句质量参差不齐, 导致代码复用性差, 增加维护成本 高效的智能体 用户数据库 数据库模型 元景模型 数据集清洗,标注 微调数据集 知识库(策略、经验) 数据库智能体集成 CDAS 工具,具备专业的行动力, 能够根据指令自主地进行决策和行动,在无人值守的 环境中高效完成任务,减少了人工干预的需求和成本
10. 场景二:数据库运维排障 基于 LLM+Agent 智能体,围绕故障发现、故障诊断、故障处置等核心运维场景,打造数据库运维排障助手,实现自动检测、精准定 位和及时处理,降低运维风险,提升运维效率 数据库运维排障 内外部知识融合 依赖人工分析, 耗时长,效率低下 运维知识问答 问题发现 排查定位 解决方案推荐 动作执行 结论推断 梳理常见运维知识,包含经验、故障等,使用外挂向 量数据库的方案,使得LLM具备运维领域故障分析定 位能力 PlannerAgent 运维数据和知识分散, 任务分解 降低排障效率和质量 技术栈复杂多样, 任务调度 监控 Agent ReAct 规划 (COT/TOT) 行动 排障定位困难 工具使用 日志 Agent CMDB Agent 大模型 元景大模型 微调 数据库模型 微调数据集 报告 Agent 根因推断 Agent 运维知识库 部署 模型服务 专家经验 故障数据 通用知识 执行结果返回 向量化数据 基于多智能体的编排调度 使用 PlannerAgent 对异常问题与子领域 Agent 进行 桥接,多个子领域 Agent 协同工作,提升运维效率 基于 TOT 思维树的提示策略 通过模拟人类解决问题的过程,将复杂问题分解为多 个更易于处理的子问题(或“思维”),并以树状结构 组织这些子问题,从而找到最终解决方案
11. 场景三:DBA 知识问答 复用研发大模型知识处理能力,聚焦数据库领域专业知识和产品运维支撑知识,基于 CDAS 的数据库融合生态,为数据库使用者 (应用人员)和数据库维护方(产品运维、支撑人员)提供一站式、高质量的技术咨询与解决方案服务 管理员 用户 上千应用,支撑问题多,无法 问题 答案 快速响应,工作量大 文档知识库 数据库AI助手 文档切片 数十种数据库,涉及知识 多且复杂 大预言模型(LLM) 知识多样,无法从一处获得 外部通识类 数据库(如 OceanBase)社区知识库文档 数据库使用说明书 白皮书... ... 梳理内外部数据库通识类和特性类文档,使得 LLM 具 备 DBA 专业领域知识,提升知识问答的召回率和准确 性 向量嵌入模型 问题+关联信息 使用方所需的 内外部知识融合 向量检索 内部特性类 CDAS 使用手册 CUDB 使用手册 日常支撑问答 SOP 运维手册.... ... 基于 RAG 技术的知识问答 检索外部知识库,增强模型对特定问题的理解和回答 能力,辅助大语言模型生成更准确、更丰富的文本内 容,提升文本处理任务的效率和质量
12. 03 OceanBase 赋能智能运维
13. 智能运维平台问题挑战 单点问题 问题挑战 扩展问题 运维复杂 MySQL MySQL 集中式数据库,只能单机部署,存在单点问题 Milvus Milvus,当前非k8s环境,只能单机部署 资源浪费 上线初期业务量较少,存在资源浪费情况 无法扩展 随业务量增长,受限于单机资源,无法水平扩展 多技术栈 同时运维 MySQL、Milvus 两个数据库产品,复杂度较高 Milvus Milvus 新技术栈,且依赖组件较多,运维成本直线上升
14. 行业内产品对比 Milvus、VectorDB 专为 AI 应用优化,适合大规模模型训练,但监控运维等产品配套能力较弱,采购及运维成本高; ElasticSearch 支持向量+全文检索混合搜索,荷兰产品;Vastbase 支持向量、标量混合查询,但向量检索性能弱于专用库; OceanBase 支持向量、标量、GIS、全文索引等混合查询,也有较高的性能和较完备的监控运维体系 向量关键特性 关键特性 OceanBase 4.3.5 开源 Milvus 2.5.4 zilliz 海量 Vastbase G100 百度 VectorDB ElasticSearch 8.17.4 支持单机部署、分布式部署,多租户资源隔离 支持单机、分布式部署,分布式版本依赖k8s, 同开源 依赖etcd、pulsar等组件 支持单机部署 支持单机部署、分布式部署,不支 持多租户 支持单机部署、分布式部署,不支持多租户 多副本城市级容灾,集群级主备,高可用能力强 支持多副本容灾 同开源 支持主备高可用 支持多副本容灾 支持多副本容灾 开源 不开源 不开源 不开源 开源 支持 支持 支持 支持 支持 支持 混合查询 支持向量、标量、GIS、全文索引等混合查询 不支持 同开源 支持向量、标量数据混合查询 不支持 支持向量、全文索引混合查询 SQL支持 支持 不支持 同开源 支持 不支持 支持,但能力较弱,并自有语法 强,支持AI/ML工作负载,优化AI数据处理和模型部署 强,专为AI应用优化,适合大规模模型训练 同开源 较弱,向量能力是附加功能,主要用 强,专为AI应用优化,适合大规模 较弱,向量能力是附加功能,主要用于简单 于简单查询 模型训练 查询 高效,针对大规模数据的存储与查询进行优化,支持复杂 高效,专为处理大规模向量数据优化 查询 同开源 一般,性能较依赖于数据库的扩展性 高效,专为处理大规模向量数据优 化 界面化支持PostgreSQL、Qdrant、Milvus等向量库迁移 不支持 至OceanBase 支持pg、glass等主流向量库迁移至 Milvus 不支持 支持编写python脚本迁移Milvus数 不支持 据至VectorDB 监控运维 复用OceanBase的运维管理平台(OCP)、cdas、自研 无第三方监控运维 指标等 主要依赖k8s监控运维能力 一般,复用Vastbase监控运维 一般 备份恢复 支持全备、增备和实时事务日志备份,可将数据恢复至故 不支持 障前任一时间点 支持全量备份,可恢复数据至全备时间 支持全备、增备和实时事务日志备份, 支持全量备份,可恢复数据至全备 点 可将数据恢复至故障前任一时间点 时间点 开源生态 开源生态 较好,有专门开源团队进行社区建设,较活跃且成长迅速 较好 不开源 相对成熟,依托opengauss社区,活 不开源 跃度较高,有较好的开源生态 较好,依托ElasticSearch国际开源社区, 活跃度高 成本 成本 高,商用license采购100万/200核 高,商用license采购2.35万/节点 较高,向量库周边工具研发 部署架构 架构 高可用能力 是否开源 基本向量查询 功能 AI集成能力 性能 性能 异构数据迁移 运维 开源 一般,依托现有商用(3w/节点)+开源模式,较好的产 较高,产品建设及周边工具研发成本 品和技术积累 高,商用license采购30万/节点 一般,性能弱于专用向量库 一般,复用ES监控运维 支持全量备份,可恢复数据至全备时间点
15. 详细能力对比-信通院标准 以下测试项为信通院制定的向量数据库基础能力评测项目,重点对三款产品进行了测试,OceanBase、Milvus、Elasticsearch 在向量基本能力方面都可以支持,Milvus 在向量能力方面支持更全面一些,支持更多向量索引类型,二进制距离等, OceanBase 在近期版本会补齐向量库稀疏向量、二进制距离等能力 序号 特性 OceanBase Milvus 当前 后续支持 当前 ElasticSearch 后续支持 当前 1 稠密向量 √ √ √ √ 2 稀疏向量(可选) × √ √ √ 3 向量维度 16,000 32,768 4 基础标量数值类型 √ × 5 向量数据类型 √ √ √ 6 半结构化数据类型(可选) √ √ √ 7 单行数据支持多个向量字段(可选) √ √ √ 8 向量数据存储压缩(可选) √ √ √ √ 备注 后续支持 4096 部分支持 √ 索引压缩,ob hnsw已在bp1提供sq压缩 数据压缩,ob下半年做,milvus无计划 9 近似检索 √ √ √ 10 精确检索 √ √ √ 11 游标读取(可选) √ √ √ 12 标量与向量的融合查询 √ × √ √ 13 标量数据的增删改查 √ × × √ milvus不支持数据修改 14 向量数据的增删改查 √ × × √ Milvus 不支持数据修改 15 主键查询 √ √ √ 16 数据导入 √ √ √ 17 数据导出 √ √ √ 18 基础相似距离 √ √ √ 19 二进制距离(可选) × √ × 20 索引 √ √ √ 21 数据一致性 √ × √ × × OB标量支持,向量支持16k以内 × 二进制向量,ob bp2支持 × OB支持事务,可保证数据一致性。
16. 详细能力对比-信通院标准 Milvus 在运管管理接口、监控巡检、多模态等方面能力不具备,后续也无支持计划,在权限管理方面支持较弱。数据向量化方面,OceanBase 有支持计划 OceanBase Milvus 后续支持 序号 特性 当前 22 数据筛选过滤和重排序(可选) √ √ √ 23 全文索引(可选) √ √ √ 24 按属性分区(可选) √ √ √ 25 部署方式 单机+分布式 单机+分布式 单机+分布式 26 监控巡检 √ × 27 参数配置 √ √ √ 28 运维管理接口 √ × √ 29 备份与恢复(可选) √ √ √ 30 故障节点恢复(可选) √ √ √ 31 升级 √ √ √ 32 系统日志 √ √ √ 33 权限管理 √ √ √ 34 数据加密(可选) √ √ √ 35 审计日志(可选) √ √ √ 36 CPU兼容性 √ √ √ 37 编程接口 √ √ √ 38 节点动态扩容 √ √ √ 39 节点动态缩容(可选) √ √ √ 40 高可用 √ √ √ 41 多模态数据向量化能力(可选) × 42 大模型工具集成(可选) √ √ 当前 ElasticSearch × √ 后续支持 × × 当前 后续支持 备注 √ × √ milvus支持全量备份恢复,OB支持全备、增备和实时事务日志备份,可将数 据恢复至故障前任一时间点,ES支持基于快照的备份恢复 开源milvus弱一些 ×
17. 基准性能测试1 • 性能测试均采用向量数据库专用测试工具 vectordbbench 进行测试,测试数据集均为测试工具要求的标准测试数据集。 • 测试环境:国产产品(ARM)CPU32core*2 内存 512GSSD 硬盘硬件条件下 ,测试版本:OceanBase 4.3.5, Milvus2.5.4, ElasticSearch 8.17.4 性能测试 • 测试结果:768 维 100万数据集下,OceanBase 总体性能优于 Milvus,在相同召回率下,0.74~0.98 召回率区间,OceanBase 性能为 Milvus 的1.8~5.7 倍,平均约 3 倍,在更 高的召回率下,OceanBase 性能表现更优,在 98% 召回率下,OceanBase 性能达到 Milvus 的 6 倍左右。 OceanBase 总体性能优于 ES,0.74~0.98 召回率区间, OceanBase 相比 ES 性能提升40%~95%,平均性能提升 70% 左右。 openai 768 OceanBase cohere 768 数据集 recall和qps的比较 Milvus ElasticSearch 20000 召回率 QPS 召回率 QPS 召回率 QPS 0.7447 18817 0.7572 10048 0.7603 13323 16000 0.8485 17038 0.8468 8195 0.8291 11218 14000 0.9026 14943 0.9062 6000 0.856 10639 12000 0.9249 13501 0.9278 4772 0.8962 10577 0.9402 12872 0.9401 4141 0.9312 9674 0.9479 12046 0.9498 3472 0.947 7874 0.9593 10585 0.9589 2884 0.9552 6945 0.9654 9464 0.9683 2167 0.9634 6014 0.9756 8619 0.9771 1581 0.9757 3733 0.9811 7246 0.9808 1266 0.9828 2849 18000 ob 10000 8000 milvus 6000 es 4000 2000 测试结果仅对此次测试负责 0 0.73 0.78 0.83 0.88 recall 0.93 0.98
18. 基准性能测试2 • 同样在国产产品(ARM)CPU32core*2 内存 512GSSD 硬盘硬件条件下 ,1536 维 50 万标准数据集性能测试。 • 测试结果:OceanBase 总体性能优于 Milvus,在相同召回率下,在 0.87-0.99 召回率下,OceanBase 性能相比 Milvus 提升 40%~90%,平均约提升 60%,总体与 ElasticSearch 性能相当。 openai 1536 ElasticSearch Milvus 召回率 QPS 召回率 QPS 召回率 QPS 0.8776 11154 0.878 5956 0.8723 10669 0.9192 9268 0.9205 4957 0.8989 9805 0.9321 8566 0.9324 5014 0.9189 8895 0.9401 8045 0.9405 4504 0.9326 7848 0.9521 6942 0.9492 4140 0.9496 7100 0.9598 6233 0.9612 3963 0.9602 6824 0.9677 5644 0.9726 3381 0.9667 6117 0.974 5120 0.979 2941 0.977 4919 0.9804 4402 0.9837 2591 0.9839 3753 0.9864 3378 0.9891 2111 0.9906 3055 0.9918 2572 0.9924 1789 0.9927 2574 12000 10000 8000 OceanBase openai 1536 数据集 recall和qps的比较 6000 ob milvus 4000 es 2000 0 测试结果仅对此次测试负责 0.87 0.89 0.91 0.93 recall 0.95 0.97 0.99
19. 验证总结 功能 性能 产品生态 专用向量库监控运维等产品配套能力较弱; OceanBase 总体性能优于 Milvus 和 简易运维: OCP 运维功能强大 ElasticSearch 支持向量+全文检索混合搜索; ElasticSearch,在相同召回率下,不同召回率区 高可用与弹性扩缩: OceanBase 支持向量、标量、GIS、全文索引 间,OceanBase 性能约为 Milvus 的 1.5~3 倍; 多租户资源隔离: 等混合查询。 相比 ElasticSearch 性能提升约40%。 快速迁移:异构向量数据迁移 OceanBase 通过多模态方式支持向量库,在功能、性能方面可满足应用对向量库的使用需求,在社区共建方面也有较好的积累,可与社区针对向量库产品功能进行联合研发 本次验证总结仅针对以上列举的基准测试结果
20. 一体化架构升级 组件替代 程序适配 数据迁移 将现有的 MySQL 和 Milvus 数据库进行现代化升 MySQL 语法完全兼容,原 MySQL 数据库几乎没 MySQL 数据迁移,OMS 全量+增量支持 级,替换为向量、标量一体化架构的 OceanBase, 有额外工作量; 并进行了相应的适配改造。 Milvus 向量数据库升级便捷 半个月即完成所有程序适配改造 Mivus 数据迁移至 OceanBase,支持全量迁移,文 档数据日常改动较少,有足够时间窗口完成迁移
21. 使用效果 资源节省 稳定性 扩展性 与原本需要两套数据库的部署方式相比,当前实 多副本容灾,单机故障情况下,RPO=0,RTO<8s, 可根据业务需求灵活调整数据库实例规格,可做到 例的规格约小了 30%,但在性能上完全满足了业 可以做到业务基本不感知。原架构存在业务可用 对资源的极致利用。在当前集群负载较大的情况下, 务需求,并且资源使用率显著降低。 性及数据丢失风险。 还可以通过横向扩展来满足需求。
22. 未来展望 统一技术栈,扩大应用规模 更全面的向量支持能力 建设向量数据库资源池, 支持稀疏向量、二进制距离, 更多索引类型,进一步提升向量索引构建速度, 丰富向量检索能力, 支持 GPU 加速等 统一集团向量数据库技术栈, 统一赋能知识库 RAG 场景。 向量库联合研发 基于与 OceanBase 社区共建的深厚的合作基础, 在向量库研发方面展开合作共建,繁荣社区生态。
23. 谢谢
24. 谢谢
25. 谢谢

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 18:45
浙ICP备14020137号-1 $访客地图$