超大规模数仓集群在大型商业银行的落地实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 超大规模数仓集群在大型商业银行的落地实践
——龙趺MPP DB
演讲人:建信金科 陈晓新
全球敏捷运维峰会 广州站
2. 龙趺MPP DB
龙趺MPP DB——新一代云原生数据仓库产品
MPP架构查询能力
超高的查询性能
标准SQL支持
完善的生态系统
龙趺
MPP DB
云计算弹性
金山云
无限的计算存储能力
动态伸缩
高性价比的存储
其他数据库、存储等合作公司
全球敏捷运维峰会 广州站
大数据平台灵活性
计算和存储分离
优异的扩展性
故障自动恢复
3. 龙趺MPP DB上线和运行现状
龙趺MPP DB
运行现状
集群规模 数据量 表数量/对
象数 负载情况
15000+服务器 9PB 百万/千万 每天运行作业数达到百万级别,SQL数千
万级别
信用卡 境内贴源 公共访问 旅程管理 集团并表
海外贴源 不良资产 海外应用 云化数仓 公共计算 资产负载 分行
信息应用
20年3月 20年7月 20年7月 20年8月 20年9月 20年10月 20年11月 21年1月 21年3月 21年4月 21年6月
全球敏捷运维峰会 广州站
4. 龙趺MPP DB上线和运行现状
全球敏捷运维峰会 广州站
5. 贴源集成应用运行效率对比
1500
1000
500
0
传统MPP
龙趺MPP DB
Ø 龙趺MPP DB的计算资源和传统MPP的计算资源基本相等
Ø 龙趺MPP DB存储和计算的数据量(1000TB)为传统MPP
(200TB)的5倍
Ø 每天7万个作业、100万个SQL,龙趺MPP DB和传统MPP的
运行效率无明显差别
全球敏捷运维峰会 广州站
6. 为什么需要研发龙趺MPP DB
u 并发能力和可扩展性不足,分库分表造成大量数据冗余
u 数据的存储和计算不分离,数据库孤岛情况严重
u 升级、扩容等操作复杂,运维成本高,应用影响大
u 木桶效应,服务器故障会导致集群性能严重下降
u 非云原生架构,难以融入建行云建设
传统MPP数据库在建行落地实践中遇到的困难
全球敏捷运维峰会 广州站
7. 龙趺MPP DB架构
元数据集群
元数据
集群
管理控制
台
计算集群-2
计算集群-1
计算集群-n
计算集群
用户数据
缓存
元数据
缓存
用户数据
缓存
元数据
缓存
用户数据
缓存
元数据
缓存
共享存储
(对象存储)
共享存储
对象存储 1
对象存储 2
对象存储 n
用户模块
全球敏捷运维峰会 广州站
管理模块
8. 龙趺MPP DB——管理控制台
权限管理
Ø
多租户/用户管理
集群生命周期管理
Ø
创建、删除、扩缩容、升级、启动、停止
IaaS资源交互和调度
Ø
自动化申请基础设施资源,包括计算、存储和网络
资源等
自动化/智能化运维
Ø 自动化安装部署
Ø 监控、告警
Ø 运维
扩容、升级、备份
故障自愈
全球敏捷运维峰会 广州站
9. 龙趺MPP DB——元数据服务
计算集群
调度层
Ø 服务发现和监控
Ø 负载均衡
2
1
3
6
调度层 ETCD
无状态
服务层 catalog
ETCD
ETCD
无状态服务层
Ø
服务层由一组服务节点组成,每个服务节点其实是
无状态的服务进程,负责接收和处理计算集群的元
catalog
catalog
数据请求;
4
元数据持久层
Ø
元数据持久化存储服务,存储数据字典、统计信息、
FDB
FDB
FDB
FDB
表到对象映射等
分布式K-V存储
全球敏捷运维峰会 广州站
5
FDB
10. 龙趺MPP DB——计算集群
元数据
集群
资源灵活分配
计算集群-1
用户数据
缓存
元数据
缓存
计算集群-2
用户数据
缓存
元数据
缓存
计算集群-n
用户数据
缓存
元数据
缓存
共享存储
(对象存储)
对象存储 1
对象存储 2
对象存储 n
全球敏捷运维峰会 广州站
Ø 按需创建、删除、扩缩容
Ø 集群间资源完全隔离
Ø 作业可在不同集群建灵活
调配
Ø 并发能力线性扩展
缓存服务
Ø 本地SSD作为缓存介质
Ø 小文件合并
11. 龙趺MPP DB——共享存储
元数据
集群
使用对象存储作为数据持久化存储
计算集群-1
用户数据
缓存
元数据
缓存
计算集群-2
用户数据
缓存
元数据
缓存
计算集群-n
用户数据
缓存
元数据
缓存
共享存储
(对象存储)
对象存储 1
对象存储 2
对象存储 n
全球敏捷运维峰会 广州站
Ø 支持100亿文件对象,200PB以上的
压缩数据
Ø 使用标准Restful API,支持高并发
访问
Ø 99.99%以上的可用性
Ø 99.999999999%以上的数据持久性
存储访问优化
Ø 多桶存储
Ø 列存+压缩
12. 龙趺MPP DB——应用解决方案
应用1
应用3
应用N
应用1
应用2
应用3
应用N
传统MPP 龙趺MPP DB
数据复
制 大量集群间
数据复制 数据共享,
无需
作业动
态调度 每个集群运
行作业基本
固定,无法
动态调整 作业可以根
据负载需求,
在不同集群
间动态调整
数据冗
余 大量冗余数
据 无数据冗余
应用2
智能调度
计算
计算
集群1
存储
计算
集群2 集群3
存储 存储
计算
集群
N
计算
计算 计算
集群2 集群3
计算
存储
集群1
集群N
共享存储
数据复制
传统MPP应用解决方案
龙趺MPP DB应用解决方案
全球敏捷运维峰会 广州站
13. 龙趺MPP DB——运维解决方案
计算集群
Master
Seg1 Seg2 Seg3 Seg4
Seg1 计算集群
Master
Seg2
Seg3 Seg4
Seg1 计算集群
Master
Seg2
Seg3
Seg5
Seg6
Seg7
Seg8
动态扩容
元数据集群
Seg1
计算集群
Master
Seg2
Seg3
动态缩容
Seg4
快速升级
COS
u
u
数据分布:一致性hash的分布方式,
避免数据大量重新逻辑分组
独立的元数据共享存储服务,计算
节点无状态,随时可增加和减或少,
也避免了数据重新物理分布
Seg1
Seg4
故障快速
隔离恢复
计算集群
Master
Seg1
Seg2
Seg3
全球敏捷运维峰会 广州站
Seg4
Seg4
新计算集群
Master
Seg2
Seg3
Seg4
14. 龙趺MPP DB应用增长规模
龙趺MPP DB规模
100000
90000
90000
10000
10000
80000
70000
8000
60000
50000
6000
40000
4000
30000
20000
10000
12000
200
2000
256
0
0
服务器数量
数据量
过去一年,建行龙趺MPP DB集群的服务器规模增加了50倍,数据量增加了45倍
全球敏捷运维峰会 广州站
15. 龙趺MPP DB遇到的问题
u 每天百亿级别的元数据RPC请求如何稳定保障 服务拆分、分布式扩
展等
u 对象存储海量的数据存取需求如何高效满足 分片、多桶、多线程,
共享缓存等
u 超大规模的集群如何高效运行维护 故障自愈、全流程监控、
自动化工具
u 银行级别的高可用要求如何保障 跨AZ/Region部署、多
活、在线备份等
全球敏捷运维峰会 广州站
16. 龙趺MPP DB——元数据服务提升
数据字典
服务1 数据字典
服务2
事务服务1 事务服务2
锁服务1 事务服务2
文件映射
服务1 数据字典
服务2
数据字典
服务3
元数据服务
单节点服务向分
布式服务改造
数据字典
服务3
数据字典
服务4
根据服务类型及负载需求,对元数据服务进拆分和分布式改造,提高服务和高可用能力
全球敏捷运维峰会 广州站
17. 龙趺MPP DB——存储服务提升
应用1
应用2
应用3
Ø 通过统一缓存服务,实
现IO加速;减少对象存
统一缓存服务
储压力
Ø 每个应用创建独立的
tablespace,每个
Bucket1
Bucket4
Bucket6
Bucket8
建若干个bucket
Bucket2
Bucket5
Bucket7
Bucket9
Bucket3
TableSpace1
tablespace根据需求创
TableSpace2
TableSpace3
共享存储
全球敏捷运维峰会 广州站
Ø 通过tablespace实现共
享存储IO能力隔离和流
量控制
18. 龙趺MPP DB——自动化监控和运维
监控信息获取
RPC分类统计 长SQL RPC分集群统计 SQL分类统计 CPU 连接数、运行
数 关键作业完成
IO、IOPS 作业运行数、
连接数 异常低/高负载
内存(虚拟、
物理等) 表访问统计 磁盘空间使用 字段访问统计
统计信息和运
行状态集成
高连接低负载
服务是否存活
性能是否正常
负载是否倾斜
资源是否充足
异常报错
历史值对比偏离
SQL运行数、报
错数等 倾斜统计
进程数、线程
数 膨胀统计
作业、SQL、存储全流程数据收集
智能资源调度
趋势轨迹 故障辅助定位
数据聚合分析 智能运维
全球敏捷运维峰会 广州站
19. 龙趺MPP DB——自动化监控和运维
全球敏捷运维峰会 广州站
20. 龙趺MPP DB——高可用提升
数据库服务
集群级别整体故障 跨AZ部署
AZ级别服务故障 数据备份
数据丢失/误删除等 双活部署
通过跨AZ部署、备份、双活等方式,进一步解决集群故障、AZ故障、数据丢失等问题
全球敏捷运维峰会 广州站
21. 总结
过去几年,我们完成了无数次的版本迭代和上线优化。一
需求分析和
产品设计
运行跟踪和
运维优化
款数据库产品的成熟发展,需要产品、架构、研发、运维、
应用等许许多多人的长期合作和投入。在龙趺MPP DB上,
我们:
Ø 集合了大批建信金科和业界优秀的研发人员;
架构设计和
产品开发
应用开发和
上线运行
Ø 提供了业界最复杂、最丰富、负载最高的应用场景;
Ø 拥有建行二十几年的数据仓库使用和运维经验,能够最
快的发现产品痛点,提出最贴合用户需求的产品设计。
全球敏捷运维峰会 广州站
22. 总结
建设银
行
恒丰
银行
银保监
坚持产品研发投入、持续拓展用
进出口
银行
龙趺
MPP DB
持续开
拓中
户、丰富产品生态,打造更为先
进、安全的数据仓库产品!!
国家开
发银行
云南
农信
云南
政务
全球敏捷运维峰会 广州站
23. THANK YOU!
全球敏捷运维峰会 广州站