网易大数据平台运维实战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 网易大数据平台运维实战 金川 网易(杭州)研究院 2021-05-22
3. 分享大纲 • 网易大数据应用现状 • EasyOps大数据管控平台 • 通用的大数据服务运维框架 • 通用的大数据监控报警框架 • 平台运维经验交流
4. 大数据应用现状
5. 大数据应用现状 • Hadoop生态基础服务 • HDFS、YARN、HBase、Hive、Spark、Impala、Kudu等 • 自研有数中台 • 支持批流一体开发、指标管理、数据资产、任务调度运维等 • 大数据平台规模 • 6 个Hadoop集群,其中3个HDFS联邦 • 总节点数 5K+,单集群最大节点数 2200+ • 总存储量 400+ PB,平均使用率 67%(包括冷备存储 47+ PB) • 日提交作业量 20W+,MR/Spark作业数接近 2:1
6. 大数据应用现状
7. EasyOps大数据管控平台 • 解决无法适配复杂架构问题(多集群、混部) • 适配云上部署,解决管理工具兼容性问题 • 提供自动化运维方案,提升运维效率 • 提供产品化底层数据接口,服务数据中台 • 提高线上故障定位效率,减少故障恢复时间
8. EasyOps大数据管控平台
9. EasyOps大数据管控平台
10. EasyOps大数据管控平台
11. EasyOps大数据管控平台
12. EasyOps大数据管控平台
13. 通用的大数据服务运维框架 • 通用服务运维操作 • 前后端技术栈 • 平台架构说明 • 服务配置管理
14. 通用服务运维操作 • 安装/卸载 • 配置 • 启停 • 升级/回滚 • 服务迁移 • 其他操作
15. 通用服务安装流程
16. Ansible技术栈 • ansible • 运维配置管理工具 • ansible-runner • 基于ansible封装后的自动化工具 • ansible-runner-service • 提供基于ansible-runner的REST API访问接口
17. Playbooks目录结构
18. 前端技术栈 • Ant-Design UI • TypeScript • Vue • vue-class-component • ant-design-vue • Grafana
19. 后端技术栈 • SpringBoot • DB(MySQL) • Docker(Compose) • GitBook/Docsify • Prometheus
20. 管控平台架构图
21. 一次安装调用过程 返 回 状态
22. 服务配置管理 • 配置组 • 变更历史 • 自定义配置参数 • 配置文件导入 返 回 状态
23. 配置变更管理 返 回 状态
24. 配置文件重写 返 回 状态
25. 通用的大数据服务监控报警 • 通用监控组件 • • • • Prometheus TSDB Telegraf/Exporter/其他 Grafana • 通用报警组件 • Grafana Alarm • Alertmanager • 定制报警
26. Prometheus分布式架构
27. Prometheus高可用
28. 度量采集监控
29. 日志监控
30. 通用监控报表
31. 通用报警
32. 定制报警
33. 运维经验交流 • 网络架构 • 存算分离 • 服务上云 • 性能优化
34. 网络架构演进
35. 存算分离架构演进
36. 服务上云架构演进
37. 性能优化 • 隔离IO • 使用SSD • 使用缓存 • 均衡负载 • 压缩数据 • 分离请求 • ...
38. Q & A
39.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-26 14:16
浙ICP备14020137号-1 $Map of visitor$