大数据平台自治能力探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 大数据平台自治能力 探索 下一代大数据平台大脑 黄丹青 高级工程师
2. 目录 CONTENT 01 自治理念 02 解决方案探索 自治是腾讯下一代大数据 平台的能力演进趋势之一 介绍大数据平台自治能力实现的 整体解决方案 03 落地场景 04 思考与展望 从集群参数推荐能力和任务诊断调 优能力来看大数据平台自治能力的 落地场景
3. 01 自治理念 自治是腾讯下一代大数据平台的能力演进趋 势之一
4. 为什么需要大数据平台自治能力 p基础能力挑战 Ø对于线上问题定位,异常分析而言,数据延时容忍度低 p领域能力挑战 • • 大量工单透传到运维研发 50+%是任务诊断调优 • • • 依赖事后处理 诊断效率低,链路长、信息分散、能 力不完备 公共能力重复建设,研发维护成本高 • …… Ø大数据体系问题诊断、任务调优严重依赖复杂的专家经验 Ø要达到完全的“自治”能力,与现有Ops实践经验对应的场 景存在一定的gap 运维 研发 用户 Not Only Ops It’s Autonomous
5. 自治能力演进路线 平台大脑: 大数据平台的运行状况数据 + (领域专家经验 + 智能算法) + 推荐/(自动)处置 L4 自治 1-5-10 问题定位 L3 决策 50% 任务失败/资源优化类的工单问题量下降 L2 洞察 成本 优化 综合 L1感知
6. 02 解决方案探索 大数据平台自治能力实现的整体解决方案是 怎样的?
7. 分层建设的平台大脑 健康分 数据大盘 SLO通晒 应 用 服 务 层 平 台 服 务 层 基 础 服 务 层 秒级监控 巡检报表 任务健康度评估 … 自治管控 业务洞察 异常告警 数 据 可 视 物理机 融合查询 秒级查询 自助配置 HDFS 数据采集 集群健康度评估 全链路诊断 实 时 分 析 HBase … 规则 引擎 异常 收敛 预处 理 告警 推送 ZK 统一Agent (物理机部署) 智能检索 离 线 分 析 Yarn/K8S 定期巡检 趋势预测 评估推荐 TDBank/Inlong 统一Agent (物理机部署) 自助恢复 算 法 决 策 Oceanus … 自助扩容 管 理 模 块 模型 服务 图谱 归因 Spark/MR 统一Agent (物理机部署) 配置 管理 对外 接口 …
8. 基础服务层 • • • • 秒级观测 隔离性 可扩展 低功耗 l Ou c r ND ock s RZ N H g p JVM CPU GPU Memory |GC Disk Network OS ... Ou p L p TI c g A e l ga K n / D Y F S u Y / 8 M B
9. 平台服务层 l Ou c r ND ock s RZ N Ou p L p TI c g A e l H g p ga K n / D Y F S u Y / 8 M B
10. 应用服务层 l Ou c r ND ock s RZ N Ou p L p TI c g A e l H g p ga K n / D Y F S u Y / 8 M B
11. 03 落地场景 从集群参数推荐能力和任务诊断调优能力来 看大数据平台自治能力的落地场景
12. 全集群GC参数推荐 GC参数推荐的1.0: 聚合同一个周期性任务的单个GC日 志的推荐参数,选中同一周期性任 务所有对应Java进程的参数推荐 现网效果: 系统部署2020.06-10,累计推荐优 化换成成计算单元**+个。 GC参数推荐的2.0: 目标是发现的GC问题有较大风险的 核心进程,按照集群,机器等多个 维度生成相应的检测结果,并作为 离线报表的一个组成部分,体现在 集群健康分的内容里面
13. 任务健康分与全链路异常分析 借助图数据库来存储 任务及其所属服务的 拓扑结构,并将异常 分析结果标注在图上, 快速定位到任务异常 的根因
14. 任务健康分与全链路异常分析 spark任务健康分模型: 资源配置参数 Shuffle数据量 Task Input数据倾斜 Task Input数据量 任务调度健康度 慢任务(Task长尾任务)、 GC处理监控度 ……
15. 04 思考与展望 daisyqhuang@tencent.com
16. 非常感谢您的观看

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-25 04:44
浙ICP备14020137号-1 $访客地图$