云原生跨域大数据架构落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 京东云原生跨域大数据 平台落地实践 京东零售-集团数据计算平台部 / 吴维伟
2.
3. 目录 • 一. 京东大数据平台概况 • 二. 京东云原生大数据平台建设背景和挑战 • 三. 京东云原生大数据平台落地实践 • 离在线混部 • 跨域存储 • 四. 落地收益 • 五. 未来规划
4. 一. 云原生大数据平台概况 京东大数据平台是京东大数据业务的基础服务平台,为京东大数据业务的实现提供一站式、自助式的大数据处理全流程解决方案。 涵盖数据采集、存储、加工、分析、可视化、机器学习等专业化产品和服务,通过数据集中从而形成高效的数据开放,在保障数据安全 的前提下,提供自助式的服务平台,大幅降低大数据消费⻔槛,帮助京东大数据业务快速落地,助力京东实践以数据为驱动的业务变革 与发展。 云原生 跨域大数据架构 存算分离 Hadoop 提供一站式、自助式的大数据 处理全流程解决方案
5. 一. 云原生大数据平台概况-平台架构 集群规模 数百万核 计算能力 日运行job数百万 存储能力 数 EB
6. 二. 云原生大数据平台-建设背景 云原生弹性伸缩架构升级 痛点 资源弹性伸缩的最大价值是通过资源共享方式充分复用 资源,在资源使用上的错峰填谷,以达到提升集群资源 利用率的效果,实现资源价值最大化。 • 大促期间在线业务采购机器应对业务高峰 • 日常在线资源利用率低 架构升级 = 离线计算 在线服务 在线服务 实时计算 实时计算 离线计算 YAR 离线调度 目标 • 大促期间在线业务 0 采购扩容 混部资源调度(JMR (控制混部离在线资源比例、弹性伸 缩) • 日常在线资源共享给离线使用 K8S YARN K8S
7. 二. 云原生大数据平台-建设挑战 • 如何统一离线和在线的资源调度 • 离线在线混合部署时,如何保证在线业务不受影响,离线业务基本稳定?
8. 二. 云原生大数据平台-建设挑战 • 跨机房资源共享后,跨机房数据访问如何避免影响在线任务(网络隔离与流控)
9. 三. 落地实践 -(1)计算混部 高效利用 资源池化 • 在线应用和离线计算具有资源互补的特 • 资源统一封装,屏蔽底层IaaS特性 点,可通过统一资源调度提升资源复用率 • 统一资源调度,上层应用系统无感使用 • 按需调度,大促节点,离线仅需借出数小时 资源 统一资源协同 共享资源池 离线 计算 在线 计算 在线资源 离线资源 混部资源
10. 三. 落地实践 -(1)混部架构 • K8S 统一资源管控 • JMR(混部资源管理)协调混部资源调度,结合单机弹性实现资源动态伸缩。 • 强资源隔离保障在线业务 TP9
11. 三. 落地实践 -(1)混部关键技术 单机弹性 统一资源管理 • K8S 统一管理资源 • 计算服务容器化改造 • 混部调度器(JMR)协调 K8S 资源分配和 NM 弹性 伸缩 资源隔离 • 联合 K8S 团队实现 CPU 隔离、网络 QoS,保障在 线业务 TP9 • 改造 HADOOP 底层,支持基于任务等级、流量类型 等多种方式设置网络优先级 • 安全水位 安全水位 • 离线最小最大配额(min,max),动态调整 离线配额 • 定制化驱逐策略:容器类型、优先级、启动时间、 资源容量 运维优化 • YARN Operator 管理 NM pod 生命周期 • 基于 Token 方案实现 NM 节点注册验证
12. 三.落地实践 -(1)混部资源动态规划 问题:资源占用分布不均衡,大部分离线资源⻓时间闲置 目标:利用弹性伸缩能力,峰值资源按需向云平台购买,减少离线计算常驻资源量 挑战:大规模、复杂作业链路,超百万任务,资源预测困难 云平台资源借用 资源占用分布 总体资源量 资源水位线 资源使用量 基于作业分级,结合资源预测、数据血缘、作业性能诊断等能力,智能动态向云平台按需购买资源,降低离线机房常驻资源需求 技术内核 时序预测 任务诊断 数据血缘 动态规划 智能编排引擎 收益 任务 解析 日志解析 链路图谱 运行时间 任务优先级 时序 编排 资源预测 时⻓预测 时序预测 …… 资源 调度 资源监测 读写监测 任务托管 …… • 利用云原生架构实现峰值资源按需购 买,购买资源每日占用时⻓不超过 4 小 时 • 资源水位线以上计算资源可以分批腾 退,降低大数据平台机器成本
13. 三. 落地实践 -(2)跨域存储 架构改造 架构优势 • • • • • • 跨机房读取变为本地读取,减少跨域流量 • 跨域生命周期实现只同步最新数据,历史数据自 动删除 • 支持数据机房级容灾 机架感知->机房感知 跨域容灾:灾备可读,支持跨域切换 跨域流控 跨域E 低冗余EC(1.16副本) 跨域流控 机房 只读 standby D BLK 灾备支持跨域切 换 机房 只读 standby D BLK Activ 机房感知 块异步传输 机房 只读 standby standby 块异步传输 D BLK D BLK D D BLK BLK D BLK D BLK D BLK BLK D BLK BLK BLK 2 机房 4 副本 BLK D D 3 机房 6 副本 BLK D D BLK D D BLK BLK D D 只读 standby 1 机房 3 副本 D BLK EC 3 机房 3.5~4.5 副本
14. 三. 落地实践 -(2)跨域存储:机房感知和标签 • 这个DN属于哪个机房? • 拓扑管理: /region/cluster/rac • 这个客户端属于哪个机房? -1 rack- 1 DN DN -2 rack- 2 DN DN DN rack- 3 DN DN • 机房感知: -1 • 基于 IP 的机房查询 DN DN DN 数据跨机房要怎么放? • 标识定义(支持副本及EC): rack- 1 DN DN -2 rack- 2 DN DN DN rack- 3 DN DN DN regionA:3:1, regionB:2:0,ttl:7200:regionA:2:1:MODIFY,ttl:7200:regionB:0:0:MODIF • 元数据变更: • XATT • 块属性标识 DN / • RPC 携带机房信息 • DN rack- 4 rack- 4 DN DN DN DN
15. 三. 京东云原生大数据平台-(2)跨域存储:数据分发及流控 RedundancyMonitor 同机房块 跨域补块 • 跨域补块独立处理,不影响原有同机房逻辑 • 异步跨域更新器,结合跨域标签属性,实现切换接续 补块 • 支持高效的跨域数据共享 复 用 增量 跨域块 CrossRegionRedundancyMonitor AsyncCrossRegionUpdater 跨域配置 目录变更 存量 跨域目录 AsyncCrossRegionQueue 跨域流控 • 跨域补块流控 • 读写优先客户端同机房 D • 跨域读写流控 • balancer 机房内部均衡
16. 三. 京东云原生大数据平台-(2)跨域存储:存储云原生 离线计算引擎 数据生命周 期 实时计算引擎 多维分析引擎 文件系统接入层 路由转发 数据调度 挂载管理 统一权限管 理 访问控制 底层存储 京东云 华为云 私有云 JDHDFS • 接入层实现通用需求,包括权限、访问控制、数据生命周期、数据调度等 • 接入层利用挂载能力实现弹性扩缩容 • 数据调度实现不同挂载存储的数据迁移
17. 四. 落地收益 618及双11大促期间动态调拨离线平台数十万核支撑在线系统流量高峰,节省大量采购成本 日常期间,离线平台复用在线系统资源数十万核,利用率提升20%+,节省大量成本
18. 五. 未来规划
19.

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-14 11:18
浙ICP备14020137号-1 $Carte des visiteurs$