网易游戏在 OceanBase 云平台的建设和实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 网易游戏 在 OceanBase 的云平台建设实践 田维繁 网易游戏关系型数据库 SaaS 服务运维和开发
2. 目录 01 DB SaaS 服务介绍 Contents 02 OceanBase 在网易游戏应用 03 OceanBase 云平台建设 04 未来展望
3. 01 DB SaaS 服务介绍
4. DB SaaS 服务介绍 关于我们:为网易众多游戏以及游戏周边业务提供一站式的数据库 SaaS 解决方案 ……
5. DB SaaS 服务介绍 数据迁移服务(DTS) 核心能力 备份管理 (DBS) 应用场景 数据迁移 数据同步 异构迁移 版本升级 数据合并 常规备份 数据订阅 数据校验 跨云迁移 外部迁移 集群拆分 快照备份 • 硬件服务层:提供自建 IDC 机房虚拟化服务,公有云以及私有云的结合 • 数据库层:提供多个数据库 SaaS 服务,满足不同游戏业务场景需求 • 生命周期管理:从资源创建到回收流程的灵活管控,以及不同架构不同 增量备份 数据库 服务 能力层 数据管理服务(DMS) 库表备份 数据查询 数据变更 数据回滚 库表管理 索引管理 DDL 变更 TPS 分析 QPS 分析 会话管理 大文档分析 大表分析 日志分析 数据库 层 硬件 服务层 本地恢复 线下恢复 数据库生命周期管理 资源管理 备份巡检 资源创建 规格调整 监控报警 版本管理 参数管理 复制管理 库表恢复 资源扩容 套餐管理 高可用管理 健康探测 故障演练 访问控制 下线恢复 文档型数据库 内存数据库 关系型数据库 KV 数据库 向量数据库 图数据库 IDC 自建机房,物理机 上层虚拟化 公有云 (AWS,ALIIYUN,GCP,AZURE) 实例的日常管理 线上回滚 数据库实例管理 基础服务层 monitor dns …… 私有云 • 数据管理服务(DMS):提供安全多样化且便捷的数据查询、分析、变更服务 • 数据传输服务(DTS):提供业务合服/拆分迁移/升级等多样化数据流转服务 • 数据备份服务(DBS):完善的数据备份与恢复服务
6. 02 OceanBase 在网易游戏应用
7. OceanBase 在网易游戏应用与发展 🎮 某游戏饰品交易系统 上线前痛点 • • MySQL 存储压力 – 单实例超 10TB,扩容成本高 单节点性能瓶颈 – 高峰期 QPS 突破 10 万 更多场景落地 上线后收益 🚀 多业务线并行验证、测试、上线 ✔ 存储成本下降 65% – OceanBase 高效压缩 ✔ 横向扩容能力 – 解决单节点压力 2021年 尝鲜试用 试用结论: ✅ 性能强劲 – 并发事务处理能力超预期 ⚠️ 周边欠缺 – 工具链和生态需完善 2023年 2024年 2025年 某游戏充值系统 上线前痛点 • 分库分表复杂 – 跨库查询延迟高,维护成本大 • 数据汇总延迟高 - 数据复制链路长,且延迟高 上线后收益 ✔ 原生分布式架构 – 无需分库分表,简化业务逻辑 ✔ 查询延迟降低 – 数据聚合后性能与延迟效率提升 50%+
8. OceanBase 在网易游戏应用与发展 痛点 日常运维繁琐低效 安全与权限管理隐患 人为误操作风险 规模化运维的痛点 需求 1. 集群全生命周期管理(创建/扩容/缩容)需 人工逐项操作 2. 备份恢复、数据迁移、管理平台对接等需要 DBA 亲力亲为 1. 权限控制松散混乱:人员过多时,容易导致 混乱,存在权限安全风险 2. 审计缺失:业务可能会共用一个账号登陆 ocp 平台,缺乏追踪到个人的操作审计 程序角度 SRE角度 集群资源与 DB SaaS 平台不联动,容易导 致人为误操作 DBA角度 兼容性验证成本较高 从其他数据库迁移到 OceanBase,无法充分 保证兼容性,业务角度验证兼容性成本较大 1、不同套餐满足需求 1、解决兼容性问题 3、规范安全的统一操作平台 1、集群容量成本 1、多机房容灾管理 3、慢查询与日志定位 1、提升运维效率 1、生命周期集中管理平台 3、精细化运维需求管理 统一管理平台 ⚫ 流程的规范化 ⚫ 多机房容灾能力 ⚫ 安全与审计能力 ⚫ 数据全生命周期管理 ⚫ 迁移兼容性支持
9. 03 OceanBase 云平台建设 集群全生命周期管理
10. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS 能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 1. 慢查询分析报警 2. 日志分析报警 持续建设 …………
11. OceanBase 云平台建设 集群资源创建 DB SaaS 平台 OCP 平台 • 直接对接功能完善的 OCP 平台,无 套餐定制 需自行实现环境检查、集群创建等 测试验证套餐 (单 observer 节点) 录入机器信息 • OCP 提供丰富的 API 接口(如集群 普通套餐 (observer 8C/64G) 高性能套餐 (observer 16C/128G) 创建 API ),仅需调用少量接口即 api 根据套餐虚拟化机器(实 现 CPU、 mem 等资源隔离) api 根据录入机器信息创建 OB 集群 api 可快速完成集群部署交付 • 与 OCP 深度联动,自动处理集群创 建成功/失败后的流程,确保资源自 多机房容灾套餐 定制化的套餐 功能 动回收,避免残留问题 统一平台对接,录入相关信 息,完成集群创建 创建租户信息
12. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS 能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 1. 慢查询分析报警 2. 日志分析报警 持续建设 …………
13. OceanBase 云平台建设 兼容性验证 较低成本模拟真实业务负载,提前暴露问题,避免生产环境“踩雷” 兼容性问题 突增流量承载能力 可靠性验证 OceanBase 高度兼容 MySQL 协议,但在特定业 务场景下仍可能存在兼容 性差异。如何提前识别潜 在风险? 面对业务突发的高并发流 量,OceanBase 能否稳 定支撑?如何通过压测提 前验证其性能表现? 高倍流量期间,主动触发 节点宕机、网络隔离等故 障,观察数据库的自动恢 复能力和业务影响
14. OceanBase 云平台建设 自研的流量回放平台 My SQL 节点 流量抓取 流量回放 不兼容问题 • OceanBase 早期 版本 GET_LOCK 与 MySQL 使用不 兼容 • 虚拟列用法使用 不兼容 • SQL 语句共享锁 使用方式不兼容 • …………
15. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS 能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 1. 慢查询分析报警 2. 日志分析报警 持续建设 …………
16. OceanBase 云平台建设 DMS 能力建设 • 多数据库兼容性: 兼容了 OceanBase 的同时,定 制 OceanBase 相关专属能力 • 精细化权限控制: 通过角色分级(如 DBA、开发、 SRE)和操作审计日志,确保最小 权限原则 • 数据保护机制: 敏感信息脱敏、操作回溯能力, 降低泄露或误操作风险 数据查询 数据导出 数据变更 表结构变更 操作审计 数据同步 数据清理 数据归档 流量录制回放 审计日志 风险管控 语法检查 空间检查 延迟检查 连通性检查 安全管理 权限配置 审批管理 账号管理 敏感数据过滤 数据操作 资源管理 实例与租户接入管理 OceanBase 数据库层 租户层 租户资源扩缩容 库名 数据库类型维护 表名 审计报表 审计通知 表结构
17. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 1. 慢查询分析报警 2. 日志分析报警 持续建设 …………
18. OceanBase 云平台建设 监控与报警 基础监控报警 健康探测
19. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS 能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 1. 慢查询分析报警 2. 日志分析报警 持续建设 …………
20. OceanBase 云平台建设 慢日志分析 OCP 平台
21. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS 能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 1. 慢查询分析报警 2. 日志分析报警 持续建设 …………
22. OceanBase 云平台建设 备份与恢复 自建 S3 存储 系统 备份 集群创建 调用 OCP 备 份策略定制 调整 OceanBase 实例备份策略 DB 平台 备份展示 api api 调用 API 监控 备份情况 备份 恢复 OCP 云平台 api 备份失败 恢复 api api api 推送备份/恢复 失败异常报警 恢复失败 恢复现有集群 备份列表 恢复到新集群 调用 API 监控 恢复情况 DB 平台展示 恢复情况
23. OceanBase 云平台建设 生命周期管理 兼容性验证 监控报警 1. 数据迁移 2. 流量回放验证兼容性 1. 监控大盘展示 2. 健康探测报警 备份恢复 1. 备份对接 s3 2. 实现一键式恢复 回收 创建 集群创建 1. 套餐定制 2. 虚拟化机器 3 .对接 OCP 平台 DMS能力 1. 数据查询,变更 清理归档 2. 操作审计 慢日志分析 持续建设 1. 慢查询分析报警 2. 日志分析报警 1. 集群诊断 2. 性能分析报表 …………
24. OceanBase 云平台建设 持续建设 一键诊断分析 通过平台对 OceanBase 的日志进行分析,找出发生 过的错误信息,进行一键全链路追踪。 一键集群巡检 平台定期对接调用 obdiag 实现对已存在或可能会导 致集群出现异常问题的原因分析并提供运维建议。 obdiag (诊断对接) 持续建设 性能分析报表 性能监控与分析 包括 QPS、TPS、响应时间等趋势对比 CPU、内 存、I/O、网络等资源使用趋势对比。 …… 智能诊断建议 结合规则引擎或机器学习,自动推荐优化建议(如索 引缺失、配置调优) 基于历史数据预测未来资源需求(如存储扩容时机)
25. 04 未来展望
26. OceanBase 未来展望 实时分析能力 智能运维(AIOps) 支持对不合理分区配置(如数据量过大的分 充分应用 OceanBase 行列混存架构融合到 结合多元的场景需求,针对 OceanBase 自 区)进行自动分裂调整 实时分析业务场景中,动态对 TP 和 AP 资 动故障检测、根因分析(RCA)、智能调优 提供智能化的全自动分区管理,仅需指定分区 源的调度能力 建议,减少人工干预 自动分区分裂能力 键即可实现自适应的动态分区,无需人工干预 深度集成 OCP 云平台,提供企业级运维能力,显著提升 OceanBase 管理效率
27. 谢谢
28. 谢谢
29. 谢谢

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 18:45
浙ICP备14020137号-1 $访客地图$