云原生大数据平台架构演进--弹性、融合、开放
如果无法正常显示,请先停止浏览器的去广告插件。
1. 云原生大数据平台架构演进
——弹性、融合、开放
顺丰科技 蔡适择
2.
3. CONTENTS
一. 背景 & 趋势
二. 顺丰大数据平台架构升级
三. 顺丰大数据架构在内外部的应用实践
四. 后续规划
4. 1
背景 & 趋势
5. 顺丰简介-集团业务概览
顺丰是中国第一大、全球第四大快递物流综合服务商,为客户提供国内及国际端到端一站式供应链服务。同时,依托领先的科技研发能力,致力于构建数字化供应链生态,成为全球智慧供应链的领
导者。
其他业务
快递物流
供应链综合物流
丰巢
快递 快运 国际
仓配一体 医药 冷链 增值服务
顺丰数科
丰泰产业园
更多...
国内城市覆盖率99.4% 国内县级覆盖率99.4% 跨境电商包裹业务覆盖 国际快递及供应链业务覆盖 2022年度年营业收入 员工数量
335个 2,813个 208个 98个 2,675 亿 162,823 人
地级市(含直辖市) 县区级城市 国家及地区 国家及地区
数据截止时间:2022年12月31日
同城即时配送
顺丰房托
立足中国 服务全球
6. 顺丰大数据平台应用简图
数据运营
大数据分析
智能调度
智慧物流
大数据平台
智能⻛控
AI人工智能
智能调拨
智慧供应链
区块链
IoT 万物互联
分仓预测
7. 大数据平台发展趋势——数据基础设施
• 湖仓一体价值逐渐被认可
• 存算分离、云原生成为现代
基础设施标准
•
流批一体诉求越来越高
8. 大数据平台发展趋势——数据管理成熟度曲线
9. 2
大数据平台架构升级
10. 原有架构痛点1——存算一体
大数据集群的部署基本都将存储与计算融合在一起,导致:
1. 无法进行存储或计算的定向伸缩,造成资源浪费
2. 发生机器负载时会带来大量的数据复制,影响稳定性
超融合
大数据服务的部署受限于本地IDC的事前规划,面对高峰往
往需要提前预测及备足服务器,机器采购、搬迁、上架、环
境安装等均需要耗费大量的精力与时间,资源的弹性伸缩能
力严重不足,造成资源浪费。
计算存储分离
计算能力
计算能力
CPU
存储<——>计算
25G网络
●
列存储
●
压缩
●
CP
GP
FPGA
Disk
MPP
定义一款通用机型
Disk
计算密集
报表类
分析类
HDD/SS
3D-Opt
存储密集
存储能力
存储能力
11. 原有架构痛点2——数据孤岛
湖仓分离
•
数据一致性不足
湖中的更新不一定覆盖到仓
•
多云数据中心
数据时效性不足
以天级为主,小时级为辅
•
技术组件独立
半结构化数据支持弱
• 跨源联邦分析难以满足
• 数据冗余
• 数据一致性不足
• 跨云数据融合分析难以满足
• 不一致的用户体验,使用成本高
• 元数据独立,找数难
• 数据跨境安全保障低
半结构化数据难以被分析应用到
Clickhouse
业务系统 BDP 业务系统 BDP
用户数据 业务数据 用户数据 业务数据
顺丰可用区
(顺丰云)
新加坡可用区
(GCP)
12. 原有架构痛点3——生产容灾分离
容灾环境
生产环境
计算资源池
计算资源池
容灾而非双活
生产、容灾数据非实时一致,任务无法做到无感切换
资源浪费
Spark Slot MR Slot 空闲Slot 空闲Slot
Flink Slot Presto Slot 空闲Slot 空闲Slot
...
容灾计算资源闲置浪费
数据一致性差
容灾和生产数据无法保障实时一致,维护成本高
存储-HDFS
DISTCP
存储-HDFS
13. 弹性融合大数据平台整体架构
产品整体上分为四部分,包括弹性资源层、融合计算层、数据洞察层和安全中心。产品目标是为客户提供极致弹性、无感、安
全、简单易用的云上数据服务
数据洞察层
数据管理平台
一站式数据工场
数据集成
IDE
任务调度
数据建模
数据质量
主动元数据
数据直通⻋
数据中心
数据应用平台
数据血缘
丰景台
数据市场
数据服务
隐私计算
数据⻔户
数据权限管理
数据安全
CDC深度整合
统一SQL
多模索引优化
深度定制Hudi表格式 & 元数据管理
跨源联邦查询
湖仓一体
计算下推加速
统一Catalog
深度定制SQL解析器 & CodeGen
脱敏
类型自动推断
Static & Dynamic Pruning
行业云(金融、政务)
资源弹性伸缩策略管理
Remote Shuffle Service
对象存储/HDFS存储/混合存储
水印
合规
弹性资源层
Shared-nothing Cache
认证
加解密
融合计算层
实时数仓
权限
弹性资源调度(ECS/k8s)
公有云(AWS、GCP、 Azure、阿里云、腾讯云、华为
云)
本地私有云
审计
KMS
14. 核心能力1——资源弹性伸缩
构建精细化缓存,精准调度计算资源,打破机房限制
统一数据语言,便利引擎升级
统一SQL JDBC Server
认证 SQL解析
资源管理 Session
管理
新机房计算资源池
鉴权
引擎管理
K8S-CC
计算
查询优化
下推
CBO
spark-executor-pod
顺丰云计算资源池
老机房计算资源池
CK8S-CC
专线
spark-executor-pod
spark-driver-pod spark-driver-pod
Cache-pod Cache-pod
公有云计算资源池
CK8S-CC
专线
CK8S-CC
spark-executor-pod
spark-executor-pod
专线
spark-driver-pod spark-driver-pod
Cache-pod Cache-pod
RBO
加密传输
大数据资源控制中心
统一元数据服务
存储
Catalog适配器
Hive
Flink
Spark
新机房HDFS
对象存储S3
资源精准调度模块
旧机房HDFS
本地
IDC 部
署API
数据自适应分布,实现跨机房融合
顺丰云
EC2 API
公有云
EC2 API
存储跨机房融合 缓存精细化、智能化 资源精准调度、智能调度
■ 数据多机房自动分布,数据副本异步实时自动分布 ■ 数据透明缓存,缓存的读写对用户透明,使用没有 ■ 资源按需弹性伸缩,将顺丰云、本地IDC和公有云
到不同机房,保障数据实时一致
■ 存储架构融合,HDFS和OSS实现架构融合,用户
可以实现透明平滑的上下云及弹性伸缩
■ 数据透明加密,数据传输链路全透明加密,数据安
全可控
⻔槛
■ 缓存生命周期管理,缓存数据生命周期基于LRU进
行自动化管理,无用缓存及时淘汰
■ 缓存精细化,列、块级别缓存,相比于文件块缓存
资源纳入计算池,业务高峰时将任务弹性至公有
云,高峰过后及时释放,能有效降低业务高峰的应
对成本
■ 算子智能调度,能够自动识别缓存所在位置,算子
更加节省空间,能够原来1%的内存空间存储原来 运行的时候自动调度到该位置,有效提高缓存的命
10倍以上的有用数据 中率
■ 任务智能调度,任务可以根据数据所在机房进行灵
活调度,避免跨机房网络带来的性能损耗
15. 核心能力2——逻辑数据仓库
用户痛点
数据
孤岛
逻辑数仓解决方案
数据分散在不同数据源中,缺少统一元数据管理,导致
数据不能自由流动和共享,形成了相互孤立的数据“孤
岛”
逻辑
数仓
组织
统一元数据服务
Catalog
统一元数据
交互
问题 ➢ 不同数据源使用不同的SQL方言,导致开发人员需
要学习和使用不同的SQL方言或API,增加开发和
维护的难度。
➢ 分散在不同数据源中的数据,无法进行跨数据源的
关联分析,难以快速挖掘数据价值。 统一语言
数据
安全 跨不同数据库系统的数据访问需要在多处重复设置权
限,缺少统一安全管控,无法有效保证数据安全。 统一安全
Thrift Interface
REST Interface
元
数
据
管
理
多
数
据
源
统一元数据管理
Connector Manager
JDB
Connector
M
SQL
统一SQL服务(统一语言)
E
Connector
Sta
Rocks
Elastic
Search
语义校验
负载均衡
认证服务
启发式优化器 &火山模型优化器
统一权限控制
代码生成
Logica
Project Logica
Project
Logica
Filter Logica
Join
Logica
Join
物理计划
Tabl
Scan
Hudi
…
Tabl
Scan
⻆色管理 组织管理
字段级权限管理 行级权限管理
用户管理
统一鉴权
查询优化引擎
逻辑计划
Hive
统一认证
JDBC接口
语法解析
Kafka
…
业务
元数据
统一安全管理服务
统一SQL语言
统一元数据管理
HM
Connector
Kafk
Connector
接口层
统一认证
Table
Database
Logica
Filter Logica
Filter
Tabl
Scan Tabl
Scan
鉴权
代理
库表权限管理
统一权限数据存储
统一审计
认证操作
审计日志
元数据操作
审计日志
文件操作
审计日志
监控与告警服务
文件操作
审计日志
16. 核心能力3——多云融合与管理
DataOps Platform
Data Service Management
Platform
Data Management
Platform
ID
(Query/Programing/DevOps)
Data Integration
Management Platform
Task Scheduling Platfor
(Real time & Offline)
Script Center
Data
Compliance
Unified
Catalog
数据安全区1(大中华)
Catalog-1
Catalog-2
Catalog-3
Cloud Connect
X
Cloud Connect
Private Cloud
数据安全区2(欧盟)
Catalog-4
Cloud Connect
Public Cloud 1
多云
存储
资源
管理
Compute Node Compute Node Compute Node
Data Cache Data Cache Data Cache Data Cache
OSS Storage
数据安全区1(大中华)
Public Clould 3
BDP Computing Resource Pool
Compute Node
HDFS Storage
Cloud Connect
Public Cloud 2
BDP Computing Resource Pool
多云
计算
资源
管理
Catalog-5
OSS Storage
X
X
Compute Node Compute Node Compute Node
Data Cache Data Cache Data Cache
OSS Storage
数据安全区2(欧盟)
OSS Storage
17. 3
案例分享
18. 某国际物流集团多云大数据案例
解决跨国多云大数据安全合规和统一管理问题,统一入口、一致体验、统一运维
1. 海外本地业务:
跨境运单
跨境运单
•
欧洲数据分析师
财务数据
总部数据分析师
北美数据分析师
财务数据
欧洲、北美
•
在满足合规要求的前提下,可将不涉及隐私
的数据传输至新加坡统一管理(法务Case
隐私数据
隐私数据
非必要数据不出境,尽量实现本地化,如:
By Case评估业务场景的合理性、必要性)
统一大数据平台
主动元数据
数据市场
数据开发套件
(丰舟)
数据分析平台
(丰景台)
•
运维监控平台
数据跨境策略
管理平台
数据合规:包括采集地合规和数据落地国家
合规
2. 跨境业务:
•
获取个人用户授权后,中国跨境业务通过香
港可用区联通,数据的双向流程需满足源和
目的国家的法律法规要求
•
业务系统
云原生数据湖
业务系统
云原生数据湖
业务系统
获取个人用户授权后,海外跨境业务可出境
数据传输至新加坡可用区
云原生数据湖
3. 应用设计基本原则:
用户数据
业务数据
欧洲可用区(AWS)
用户数据
业务数据
新加坡可用区(华为
用户数据
业务数据
北美可用区(GCP)
• 个人用户数据加密
• 将个人用户数据剥离,满足隔离性要求
• 需要满足多云大数据平台统一管理需求,不
可能每一朵云一个入口和一套运维
19. 顺丰大数据平台历史技术债务清理案例
➢ 面临问题 ➢ 解决方案 ■ Hive运行慢、占用资源多 ◆ ✓ ■ 其Tez引擎问题多,社区已不维护 使用统一SQL系统实现对Hive任务
用户无感透明换引擎。 已实现4w+ Hive任务用户无感
“透明”迁移
■ 现存15w+Hive任务,无法人工修改
进行技术(引擎)升级 ◆ 构建模拟执行“双跑”系统,确保引擎
切换的数据一致性。 ✓ 任务平均耗时降为原来的40
✓ 平均耗费资源降为原来的50
◆ 构建灰度发布系统,进行任务粒度
的切换管控,逐步、有序地切换。 ✓ 实现降本5w+ CU
➢
灰度发布系统
模拟执行“双跑”系统
获取任务SQL
务
e 任
任务调度系统
Hiv
Server
任务“双跑
(同时在统一SQL和Hive中执行)
统一SQ
服务
灰度管理系统
配置下发
改写任务SQ
后分析及输出报告
BDP_HIVE虚拟节点
任务调度系
统
(替换SQL中真实表名为测试表名)
结果初步比对
效果
hiv
调度
调
度
&
hiv
e 任
务
新 schetl-hive-
driver.jar
询问是否要灰度
需要灰
度
不需
要
访问
灰
原 H 度
ive
Se
rve
原 schetl-hive-
r
driver.jar
灰度发布服务
(federal-canary)
统一SQL服务
(federal-server)
HiveServer
20. 顺丰大数据平台机房迁移案例
➢ 跨机房带宽不足:带宽小,同步数据量大,存量超过100PB,日变更数
据量超1.5PB,难以在短期内将数据同步到新机房
➢ 机房迁移落地:完成了超过100PB数据,20w+的任务从老机房迁移至新机
迁
移
成
果
迁
移 ➢ 达到用户无感迁移体验难度高:线上作业超过30w+,并且业务逻辑复杂
度、对资源需求量差异非常大,机房迁移过程中,需要做到不停服务,
难
不影响任务SLA达成,实现对用户无感知迁移非常困难
点
房,整个过程对用户无感知,任务SLA时效100%达成
➢ 混合云跨机房弹性架构在迁移过程中大规模应用:成本低、效率高、⻔槛
低,资源可以快速补充,目前实现3个本地IDC的全面融合,并以华为云作为外
部弹性资源补充,顺利通过双十一高峰考验
➢ 多机房资源融合管理难,不同机房的机器规格配置各不相同,如何做到
逻辑上统一的资源池管理具备高挑战性
顺丰方案
落
地
方
案
业
界
对
比
用户透明,迁移过程对用户透明,用户无感知,落地效
率高
按需灰度,数据不需要全部同步完就可以按需进行任务
灰度
实时融合,数据迁移不需要人工干预,且完全融合现有
机房
强一致性,数据同步中新旧机房数据完全一致
VS
传统方案
停机迁移方式:业务影响大、难以短时间完成、有集群恢复
不了⻛险
不停机迁移方式:数据需要复制,数据同步需手工配置易遗
漏不灵活,数据一致性难保障,同步数据延迟大,一致性低
21. 4
后续规划
22. 大数据平台的ChatGPT+
23.