网易大数据平台运维实战
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 网易大数据平台运维实战
金川
网易(杭州)研究院
2021-05-22
3. 分享大纲
• 网易大数据应用现状
• EasyOps大数据管控平台
• 通用的大数据服务运维框架
• 通用的大数据监控报警框架
• 平台运维经验交流
4. 大数据应用现状
5. 大数据应用现状
• Hadoop生态基础服务
• HDFS、YARN、HBase、Hive、Spark、Impala、Kudu等
• 自研有数中台
• 支持批流一体开发、指标管理、数据资产、任务调度运维等
• 大数据平台规模
• 6 个Hadoop集群,其中3个HDFS联邦
• 总节点数 5K+,单集群最大节点数 2200+
• 总存储量 400+ PB,平均使用率 67%(包括冷备存储 47+ PB)
• 日提交作业量 20W+,MR/Spark作业数接近 2:1
6. 大数据应用现状
7. EasyOps大数据管控平台
• 解决无法适配复杂架构问题(多集群、混部)
• 适配云上部署,解决管理工具兼容性问题
• 提供自动化运维方案,提升运维效率
• 提供产品化底层数据接口,服务数据中台
• 提高线上故障定位效率,减少故障恢复时间
8. EasyOps大数据管控平台
9. EasyOps大数据管控平台
10. EasyOps大数据管控平台
11. EasyOps大数据管控平台
12. EasyOps大数据管控平台
13. 通用的大数据服务运维框架
• 通用服务运维操作
• 前后端技术栈
• 平台架构说明
• 服务配置管理
14. 通用服务运维操作
• 安装/卸载
• 配置
• 启停
• 升级/回滚
• 服务迁移
• 其他操作
15. 通用服务安装流程
16. Ansible技术栈
• ansible
• 运维配置管理工具
• ansible-runner
• 基于ansible封装后的自动化工具
• ansible-runner-service
• 提供基于ansible-runner的REST API访问接口
17. Playbooks目录结构
18. 前端技术栈
• Ant-Design UI
• TypeScript
• Vue
• vue-class-component
• ant-design-vue
• Grafana
19. 后端技术栈
• SpringBoot
• DB(MySQL)
• Docker(Compose)
• GitBook/Docsify
• Prometheus
20. 管控平台架构图
21. 一次安装调用过程
返 回 状态
22. 服务配置管理
• 配置组
• 变更历史
• 自定义配置参数
• 配置文件导入
返 回 状态
23. 配置变更管理
返 回 状态
24. 配置文件重写
返 回 状态
25. 通用的大数据服务监控报警
• 通用监控组件
•
•
•
•
Prometheus
TSDB
Telegraf/Exporter/其他
Grafana
• 通用报警组件
• Grafana Alarm
• Alertmanager
• 定制报警
26. Prometheus分布式架构
27. Prometheus高可用
28. 度量采集监控
29. 日志监控
30. 通用监控报表
31. 通用报警
32. 定制报警
33. 运维经验交流
• 网络架构
• 存算分离
• 服务上云
• 性能优化
34. 网络架构演进
35. 存算分离架构演进
36. 服务上云架构演进
37. 性能优化
• 隔离IO
• 使用SSD
• 使用缓存
• 均衡负载
• 压缩数据
• 分离请求
• ...
38. Q & A
39.