云原生大数据平台架构演进--弹性、融合、开放

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 云原生大数据平台架构演进 ——弹性、融合、开放 顺丰科技 蔡适择
2.
3. CONTENTS 一. 背景 & 趋势 二. 顺丰大数据平台架构升级 三. 顺丰大数据架构在内外部的应用实践 四. 后续规划
4. 1 背景 & 趋势
5. 顺丰简介-集团业务概览 顺丰是中国第一大、全球第四大快递物流综合服务商,为客户提供国内及国际端到端一站式供应链服务。同时,依托领先的科技研发能力,致力于构建数字化供应链生态,成为全球智慧供应链的领 导者。 其他业务 快递物流 供应链综合物流 丰巢 快递 快运 国际 仓配一体 医药 冷链 增值服务 顺丰数科 丰泰产业园 更多... 国内城市覆盖率99.4% 国内县级覆盖率99.4% 跨境电商包裹业务覆盖 国际快递及供应链业务覆盖 2022年度年营业收入 员工数量 335个 2,813个 208个 98个 2,675 亿 162,823 人 地级市(含直辖市) 县区级城市 国家及地区 国家及地区 数据截止时间:2022年12月31日 同城即时配送 顺丰房托 立足中国 服务全球
6. 顺丰大数据平台应用简图 数据运营 大数据分析 智能调度 智慧物流 大数据平台 智能⻛控 AI人工智能 智能调拨 智慧供应链 区块链 IoT 万物互联 分仓预测
7. 大数据平台发展趋势——数据基础设施 • 湖仓一体价值逐渐被认可 • 存算分离、云原生成为现代 基础设施标准 • 流批一体诉求越来越高
8. 大数据平台发展趋势——数据管理成熟度曲线
9. 2 大数据平台架构升级
10. 原有架构痛点1——存算一体 大数据集群的部署基本都将存储与计算融合在一起,导致: 1. 无法进行存储或计算的定向伸缩,造成资源浪费 2. 发生机器负载时会带来大量的数据复制,影响稳定性 超融合 大数据服务的部署受限于本地IDC的事前规划,面对高峰往 往需要提前预测及备足服务器,机器采购、搬迁、上架、环 境安装等均需要耗费大量的精力与时间,资源的弹性伸缩能 力严重不足,造成资源浪费。 计算存储分离 计算能力 计算能力 CPU 存储<——>计算 25G网络 ● 列存储 ● 压缩 ● CP GP FPGA Disk MPP 定义一款通用机型 Disk 计算密集 报表类 分析类 HDD/SS 3D-Opt 存储密集 存储能力 存储能力
11. 原有架构痛点2——数据孤岛 湖仓分离 • 数据一致性不足 湖中的更新不一定覆盖到仓 • 多云数据中心 数据时效性不足 以天级为主,小时级为辅 • 技术组件独立 半结构化数据支持弱 • 跨源联邦分析难以满足 • 数据冗余 • 数据一致性不足 • 跨云数据融合分析难以满足 • 不一致的用户体验,使用成本高 • 元数据独立,找数难 • 数据跨境安全保障低 半结构化数据难以被分析应用到 Clickhouse 业务系统 BDP 业务系统 BDP 用户数据 业务数据 用户数据 业务数据 顺丰可用区 (顺丰云) 新加坡可用区 (GCP)
12. 原有架构痛点3——生产容灾分离 容灾环境 生产环境 计算资源池 计算资源池 容灾而非双活 生产、容灾数据非实时一致,任务无法做到无感切换 资源浪费 Spark Slot MR Slot 空闲Slot 空闲Slot Flink Slot Presto Slot 空闲Slot 空闲Slot ... 容灾计算资源闲置浪费 数据一致性差 容灾和生产数据无法保障实时一致,维护成本高 存储-HDFS DISTCP 存储-HDFS
13. 弹性融合大数据平台整体架构 产品整体上分为四部分,包括弹性资源层、融合计算层、数据洞察层和安全中心。产品目标是为客户提供极致弹性、无感、安 全、简单易用的云上数据服务 数据洞察层 数据管理平台 一站式数据工场 数据集成 IDE 任务调度 数据建模 数据质量 主动元数据 数据直通⻋ 数据中心 数据应用平台 数据血缘 丰景台 数据市场 数据服务 隐私计算 数据⻔户 数据权限管理 数据安全 CDC深度整合 统一SQL 多模索引优化 深度定制Hudi表格式 & 元数据管理 跨源联邦查询 湖仓一体 计算下推加速 统一Catalog 深度定制SQL解析器 & CodeGen 脱敏 类型自动推断 Static & Dynamic Pruning 行业云(金融、政务) 资源弹性伸缩策略管理 Remote Shuffle Service 对象存储/HDFS存储/混合存储 水印 合规 弹性资源层 Shared-nothing Cache 认证 加解密 融合计算层 实时数仓 权限 弹性资源调度(ECS/k8s) 公有云(AWS、GCP、 Azure、阿里云、腾讯云、华为 云) 本地私有云 审计 KMS
14. 核心能力1——资源弹性伸缩 构建精细化缓存,精准调度计算资源,打破机房限制 统一数据语言,便利引擎升级 统一SQL JDBC Server 认证 SQL解析 资源管理 Session 管理 新机房计算资源池 鉴权 引擎管理 K8S-CC 计算 查询优化 下推 CBO spark-executor-pod 顺丰云计算资源池 老机房计算资源池 CK8S-CC 专线 spark-executor-pod spark-driver-pod spark-driver-pod Cache-pod Cache-pod 公有云计算资源池 CK8S-CC 专线 CK8S-CC spark-executor-pod spark-executor-pod 专线 spark-driver-pod spark-driver-pod Cache-pod Cache-pod RBO 加密传输 大数据资源控制中心 统一元数据服务 存储 Catalog适配器 Hive Flink Spark 新机房HDFS 对象存储S3 资源精准调度模块 旧机房HDFS 本地 IDC 部 署API 数据自适应分布,实现跨机房融合 顺丰云 EC2 API 公有云 EC2 API 存储跨机房融合 缓存精细化、智能化 资源精准调度、智能调度 ■ 数据多机房自动分布,数据副本异步实时自动分布 ■ 数据透明缓存,缓存的读写对用户透明,使用没有 ■ 资源按需弹性伸缩,将顺丰云、本地IDC和公有云 到不同机房,保障数据实时一致 ■ 存储架构融合,HDFS和OSS实现架构融合,用户 可以实现透明平滑的上下云及弹性伸缩 ■ 数据透明加密,数据传输链路全透明加密,数据安 全可控 ⻔槛 ■ 缓存生命周期管理,缓存数据生命周期基于LRU进 行自动化管理,无用缓存及时淘汰 ■ 缓存精细化,列、块级别缓存,相比于文件块缓存 资源纳入计算池,业务高峰时将任务弹性至公有 云,高峰过后及时释放,能有效降低业务高峰的应 对成本 ■ 算子智能调度,能够自动识别缓存所在位置,算子 更加节省空间,能够原来1%的内存空间存储原来 运行的时候自动调度到该位置,有效提高缓存的命 10倍以上的有用数据 中率 ■ 任务智能调度,任务可以根据数据所在机房进行灵 活调度,避免跨机房网络带来的性能损耗
15. 核心能力2——逻辑数据仓库 用户痛点 数据 孤岛 逻辑数仓解决方案 数据分散在不同数据源中,缺少统一元数据管理,导致 数据不能自由流动和共享,形成了相互孤立的数据“孤 岛” 逻辑 数仓 组织 统一元数据服务 Catalog 统一元数据 交互 问题 ➢ 不同数据源使用不同的SQL方言,导致开发人员需 要学习和使用不同的SQL方言或API,增加开发和 维护的难度。 ➢ 分散在不同数据源中的数据,无法进行跨数据源的 关联分析,难以快速挖掘数据价值。 统一语言 数据 安全 跨不同数据库系统的数据访问需要在多处重复设置权 限,缺少统一安全管控,无法有效保证数据安全。 统一安全 Thrift Interface REST Interface 元 数 据 管 理 多 数 据 源 统一元数据管理 Connector Manager JDB Connector M SQL 统一SQL服务(统一语言) E Connector Sta Rocks Elastic Search 语义校验 负载均衡 认证服务 启发式优化器 &火山模型优化器 统一权限控制 代码生成 Logica Project Logica Project Logica Filter Logica Join Logica Join 物理计划 Tabl Scan Hudi … Tabl Scan ⻆色管理 组织管理 字段级权限管理 行级权限管理 用户管理 统一鉴权 查询优化引擎 逻辑计划 Hive 统一认证 JDBC接口 语法解析 Kafka … 业务 元数据 统一安全管理服务 统一SQL语言 统一元数据管理 HM Connector Kafk Connector 接口层 统一认证 Table Database Logica Filter Logica Filter Tabl Scan Tabl Scan 鉴权 代理 库表权限管理 统一权限数据存储 统一审计 认证操作 审计日志 元数据操作 审计日志 文件操作 审计日志 监控与告警服务 文件操作 审计日志
16. 核心能力3——多云融合与管理 DataOps Platform Data Service Management Platform Data Management Platform ID (Query/Programing/DevOps) Data Integration Management Platform Task Scheduling Platfor (Real time & Offline) Script Center Data Compliance Unified Catalog 数据安全区1(大中华) Catalog-1 Catalog-2 Catalog-3 Cloud Connect X Cloud Connect Private Cloud 数据安全区2(欧盟) Catalog-4 Cloud Connect Public Cloud 1 多云 存储 资源 管理 Compute Node Compute Node Compute Node Data Cache Data Cache Data Cache Data Cache OSS Storage 数据安全区1(大中华) Public Clould 3 BDP Computing Resource Pool Compute Node HDFS Storage Cloud Connect Public Cloud 2 BDP Computing Resource Pool 多云 计算 资源 管理 Catalog-5 OSS Storage X X Compute Node Compute Node Compute Node Data Cache Data Cache Data Cache OSS Storage 数据安全区2(欧盟) OSS Storage
17. 3 案例分享
18. 某国际物流集团多云大数据案例 解决跨国多云大数据安全合规和统一管理问题,统一入口、一致体验、统一运维 1. 海外本地业务: 跨境运单 跨境运单 • 欧洲数据分析师 财务数据 总部数据分析师 北美数据分析师 财务数据 欧洲、北美 • 在满足合规要求的前提下,可将不涉及隐私 的数据传输至新加坡统一管理(法务Case 隐私数据 隐私数据 非必要数据不出境,尽量实现本地化,如: By Case评估业务场景的合理性、必要性) 统一大数据平台 主动元数据 数据市场 数据开发套件 (丰舟) 数据分析平台 (丰景台) • 运维监控平台 数据跨境策略 管理平台 数据合规:包括采集地合规和数据落地国家 合规 2. 跨境业务: • 获取个人用户授权后,中国跨境业务通过香 港可用区联通,数据的双向流程需满足源和 目的国家的法律法规要求 • 业务系统 云原生数据湖 业务系统 云原生数据湖 业务系统 获取个人用户授权后,海外跨境业务可出境 数据传输至新加坡可用区 云原生数据湖 3. 应用设计基本原则: 用户数据 业务数据 欧洲可用区(AWS) 用户数据 业务数据 新加坡可用区(华为 用户数据 业务数据 北美可用区(GCP) • 个人用户数据加密 • 将个人用户数据剥离,满足隔离性要求 • 需要满足多云大数据平台统一管理需求,不 可能每一朵云一个入口和一套运维
19. 顺丰大数据平台历史技术债务清理案例 ➢ 面临问题 ➢ 解决方案 ■ Hive运行慢、占用资源多 ◆ ✓ ■ 其Tez引擎问题多,社区已不维护 使用统一SQL系统实现对Hive任务 用户无感透明换引擎。 已实现4w+ Hive任务用户无感 “透明”迁移 ■ 现存15w+Hive任务,无法人工修改 进行技术(引擎)升级 ◆ 构建模拟执行“双跑”系统,确保引擎 切换的数据一致性。 ✓ 任务平均耗时降为原来的40 ✓ 平均耗费资源降为原来的50 ◆ 构建灰度发布系统,进行任务粒度 的切换管控,逐步、有序地切换。 ✓ 实现降本5w+ CU ➢ 灰度发布系统 模拟执行“双跑”系统 获取任务SQL 务 e 任 任务调度系统 Hiv Server 任务“双跑 (同时在统一SQL和Hive中执行) 统一SQ 服务 灰度管理系统 配置下发 改写任务SQ 后分析及输出报告 BDP_HIVE虚拟节点 任务调度系 统 (替换SQL中真实表名为测试表名) 结果初步比对 效果 hiv 调度 调 度 & hiv e 任 务 新 schetl-hive- driver.jar 询问是否要灰度 需要灰 度 不需 要 访问 灰 原 H 度 ive Se rve 原 schetl-hive- r driver.jar 灰度发布服务 (federal-canary) 统一SQL服务 (federal-server) HiveServer
20. 顺丰大数据平台机房迁移案例 ➢ 跨机房带宽不足:带宽小,同步数据量大,存量超过100PB,日变更数 据量超1.5PB,难以在短期内将数据同步到新机房 ➢ 机房迁移落地:完成了超过100PB数据,20w+的任务从老机房迁移至新机 迁 移 成 果 迁 移 ➢ 达到用户无感迁移体验难度高:线上作业超过30w+,并且业务逻辑复杂 度、对资源需求量差异非常大,机房迁移过程中,需要做到不停服务, 难 不影响任务SLA达成,实现对用户无感知迁移非常困难 点 房,整个过程对用户无感知,任务SLA时效100%达成 ➢ 混合云跨机房弹性架构在迁移过程中大规模应用:成本低、效率高、⻔槛 低,资源可以快速补充,目前实现3个本地IDC的全面融合,并以华为云作为外 部弹性资源补充,顺利通过双十一高峰考验 ➢ 多机房资源融合管理难,不同机房的机器规格配置各不相同,如何做到 逻辑上统一的资源池管理具备高挑战性 顺丰方案 落 地 方 案 业 界 对 比 用户透明,迁移过程对用户透明,用户无感知,落地效 率高 按需灰度,数据不需要全部同步完就可以按需进行任务 灰度 实时融合,数据迁移不需要人工干预,且完全融合现有 机房 强一致性,数据同步中新旧机房数据完全一致 VS 传统方案 停机迁移方式:业务影响大、难以短时间完成、有集群恢复 不了⻛险 不停机迁移方式:数据需要复制,数据同步需手工配置易遗 漏不灵活,数据一致性难保障,同步数据延迟大,一致性低
21. 4 后续规划
22. 大数据平台的ChatGPT+
23.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-22 17:55
浙ICP备14020137号-1 $Map of visitor$