网易游戏在 OceanBase 云平台的建设和实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 网易游戏
在 OceanBase 的云平台建设实践
田维繁
网易游戏关系型数据库
SaaS 服务运维和开发
2. 目录
01 DB SaaS 服务介绍
Contents
02 OceanBase 在网易游戏应用
03 OceanBase 云平台建设
04 未来展望
3. 01
DB SaaS 服务介绍
4. DB SaaS 服务介绍
关于我们:为网易众多游戏以及游戏周边业务提供一站式的数据库 SaaS 解决方案
……
5. DB SaaS 服务介绍
数据迁移服务(DTS)
核心能力
备份管理
(DBS)
应用场景
数据迁移 数据同步 异构迁移 版本升级 数据合并 常规备份
数据订阅 数据校验 跨云迁移 外部迁移 集群拆分 快照备份
• 硬件服务层:提供自建 IDC 机房虚拟化服务,公有云以及私有云的结合
• 数据库层:提供多个数据库 SaaS 服务,满足不同游戏业务场景需求
• 生命周期管理:从资源创建到回收流程的灵活管控,以及不同架构不同
增量备份
数据库
服务
能力层
数据管理服务(DMS)
库表备份
数据查询 数据变更 数据回滚 库表管理 索引管理 DDL 变更
TPS 分析 QPS 分析 会话管理 大文档分析 大表分析 日志分析
数据库
层
硬件
服务层
本地恢复
线下恢复
数据库生命周期管理
资源管理
备份巡检
资源创建 规格调整 监控报警 版本管理 参数管理 复制管理 库表恢复
资源扩容 套餐管理 高可用管理 健康探测 故障演练 访问控制 下线恢复
文档型数据库 内存数据库 关系型数据库
KV 数据库 向量数据库 图数据库
IDC 自建机房,物理机
上层虚拟化
公有云
(AWS,ALIIYUN,GCP,AZURE)
实例的日常管理
线上回滚
数据库实例管理
基础服务层
monitor
dns
……
私有云
• 数据管理服务(DMS):提供安全多样化且便捷的数据查询、分析、变更服务
• 数据传输服务(DTS):提供业务合服/拆分迁移/升级等多样化数据流转服务
• 数据备份服务(DBS):完善的数据备份与恢复服务
6. 02
OceanBase 在网易游戏应用
7. OceanBase 在网易游戏应用与发展
🎮 某游戏饰品交易系统
上线前痛点
•
•
MySQL 存储压力 – 单实例超 10TB,扩容成本高
单节点性能瓶颈 – 高峰期 QPS 突破 10 万
更多场景落地
上线后收益
🚀 多业务线并行验证、测试、上线
✔ 存储成本下降 65% – OceanBase 高效压缩
✔ 横向扩容能力 – 解决单节点压力
2021年
尝鲜试用
试用结论:
✅ 性能强劲 – 并发事务处理能力超预期
⚠️ 周边欠缺 – 工具链和生态需完善
2023年
2024年
2025年
某游戏充值系统
上线前痛点
• 分库分表复杂 – 跨库查询延迟高,维护成本大
• 数据汇总延迟高 - 数据复制链路长,且延迟高
上线后收益
✔ 原生分布式架构 – 无需分库分表,简化业务逻辑
✔ 查询延迟降低 – 数据聚合后性能与延迟效率提升 50%+
8. OceanBase 在网易游戏应用与发展
痛点
日常运维繁琐低效
安全与权限管理隐患
人为误操作风险
规模化运维的痛点
需求
1. 集群全生命周期管理(创建/扩容/缩容)需
人工逐项操作
2. 备份恢复、数据迁移、管理平台对接等需要
DBA 亲力亲为
1. 权限控制松散混乱:人员过多时,容易导致
混乱,存在权限安全风险
2. 审计缺失:业务可能会共用一个账号登陆
ocp 平台,缺乏追踪到个人的操作审计
程序角度
SRE角度
集群资源与 DB SaaS 平台不联动,容易导
致人为误操作
DBA角度
兼容性验证成本较高
从其他数据库迁移到 OceanBase,无法充分
保证兼容性,业务角度验证兼容性成本较大
1、不同套餐满足需求
1、解决兼容性问题
3、规范安全的统一操作平台
1、集群容量成本
1、多机房容灾管理
3、慢查询与日志定位
1、提升运维效率
1、生命周期集中管理平台
3、精细化运维需求管理
统一管理平台
⚫ 流程的规范化
⚫ 多机房容灾能力
⚫ 安全与审计能力
⚫ 数据全生命周期管理
⚫ 迁移兼容性支持
9. 03
OceanBase 云平台建设
集群全生命周期管理
10. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS 能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析
1. 慢查询分析报警
2. 日志分析报警
持续建设
…………
11. OceanBase 云平台建设
集群资源创建
DB SaaS 平台
OCP 平台
• 直接对接功能完善的 OCP 平台,无
套餐定制
需自行实现环境检查、集群创建等
测试验证套餐
(单 observer 节点)
录入机器信息
• OCP 提供丰富的 API 接口(如集群
普通套餐
(observer 8C/64G)
高性能套餐
(observer 16C/128G)
创建 API ),仅需调用少量接口即
api
根据套餐虚拟化机器(实
现 CPU、 mem 等资源隔离)
api
根据录入机器信息创建
OB 集群
api
可快速完成集群部署交付
• 与 OCP 深度联动,自动处理集群创
建成功/失败后的流程,确保资源自
多机房容灾套餐
定制化的套餐
功能
动回收,避免残留问题
统一平台对接,录入相关信
息,完成集群创建
创建租户信息
12. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS 能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析
1. 慢查询分析报警
2. 日志分析报警
持续建设
…………
13. OceanBase 云平台建设
兼容性验证
较低成本模拟真实业务负载,提前暴露问题,避免生产环境“踩雷”
兼容性问题 突增流量承载能力 可靠性验证
OceanBase 高度兼容
MySQL 协议,但在特定业
务场景下仍可能存在兼容
性差异。如何提前识别潜
在风险? 面对业务突发的高并发流
量,OceanBase 能否稳
定支撑?如何通过压测提
前验证其性能表现? 高倍流量期间,主动触发
节点宕机、网络隔离等故
障,观察数据库的自动恢
复能力和业务影响
14. OceanBase 云平台建设
自研的流量回放平台
My SQL 节点
流量抓取
流量回放
不兼容问题
• OceanBase 早期
版本 GET_LOCK
与 MySQL 使用不
兼容
• 虚拟列用法使用
不兼容
• SQL 语句共享锁
使用方式不兼容
• …………
15. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS 能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析
1. 慢查询分析报警
2. 日志分析报警
持续建设
…………
16. OceanBase 云平台建设
DMS 能力建设
• 多数据库兼容性:
兼容了 OceanBase 的同时,定
制 OceanBase 相关专属能力
• 精细化权限控制:
通过角色分级(如 DBA、开发、
SRE)和操作审计日志,确保最小
权限原则
• 数据保护机制:
敏感信息脱敏、操作回溯能力,
降低泄露或误操作风险
数据查询 数据导出 数据变更 表结构变更 操作审计
数据同步 数据清理 数据归档 流量录制回放 审计日志
风险管控 语法检查 空间检查 延迟检查 连通性检查 安全管理 权限配置 审批管理 账号管理 敏感数据过滤
数据操作
资源管理
实例与租户接入管理
OceanBase 数据库层
租户层
租户资源扩缩容
库名
数据库类型维护
表名
审计报表
审计通知
表结构
17. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析
1. 慢查询分析报警
2. 日志分析报警
持续建设
…………
18. OceanBase 云平台建设
监控与报警
基础监控报警
健康探测
19. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS 能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析
1. 慢查询分析报警
2. 日志分析报警
持续建设
…………
20. OceanBase 云平台建设
慢日志分析
OCP 平台
21. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS 能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析
1. 慢查询分析报警
2. 日志分析报警
持续建设
…………
22. OceanBase 云平台建设
备份与恢复
自建 S3 存储
系统
备份
集群创建
调用 OCP 备
份策略定制
调整 OceanBase
实例备份策略
DB 平台
备份展示
api
api
调用 API 监控
备份情况
备份
恢复
OCP 云平台
api
备份失败
恢复
api
api
api
推送备份/恢复
失败异常报警
恢复失败
恢复现有集群
备份列表
恢复到新集群
调用 API 监控
恢复情况
DB 平台展示
恢复情况
23. OceanBase 云平台建设
生命周期管理
兼容性验证 监控报警
1. 数据迁移
2. 流量回放验证兼容性 1. 监控大盘展示
2. 健康探测报警
备份恢复
1. 备份对接 s3
2. 实现一键式恢复
回收
创建
集群创建
1. 套餐定制
2. 虚拟化机器
3 .对接 OCP 平台
DMS能力
1. 数据查询,变更
清理归档
2. 操作审计
慢日志分析 持续建设
1. 慢查询分析报警
2. 日志分析报警 1. 集群诊断
2. 性能分析报表
…………
24. OceanBase 云平台建设
持续建设
一键诊断分析 通过平台对 OceanBase 的日志进行分析,找出发生
过的错误信息,进行一键全链路追踪。
一键集群巡检 平台定期对接调用 obdiag 实现对已存在或可能会导
致集群出现异常问题的原因分析并提供运维建议。
obdiag
(诊断对接)
持续建设
性能分析报表
性能监控与分析
包括 QPS、TPS、响应时间等趋势对比 CPU、内
存、I/O、网络等资源使用趋势对比。
……
智能诊断建议
结合规则引擎或机器学习,自动推荐优化建议(如索
引缺失、配置调优)
基于历史数据预测未来资源需求(如存储扩容时机)
25. 04
未来展望
26. OceanBase 未来展望
实时分析能力 智能运维(AIOps)
支持对不合理分区配置(如数据量过大的分 充分应用 OceanBase 行列混存架构融合到 结合多元的场景需求,针对 OceanBase 自
区)进行自动分裂调整 实时分析业务场景中,动态对 TP 和 AP 资 动故障检测、根因分析(RCA)、智能调优
提供智能化的全自动分区管理,仅需指定分区 源的调度能力 建议,减少人工干预
自动分区分裂能力
键即可实现自适应的动态分区,无需人工干预
深度集成 OCP 云平台,提供企业级运维能力,显著提升 OceanBase 管理效率
27. 谢谢
28. 谢谢
29. 谢谢