网易大数据平台运维实战
如果无法正常显示,请先停止浏览器的去广告插件。
        
                相关话题:
                                    #网易
                            
                        
                1.             
                        
                2. 网易大数据平台运维实战
金川
网易(杭州)研究院
2021-05-22            
                        
                3. 分享大纲
• 网易大数据应用现状
• EasyOps大数据管控平台
• 通用的大数据服务运维框架
• 通用的大数据监控报警框架
• 平台运维经验交流            
                        
                4. 大数据应用现状            
                        
                5. 大数据应用现状
• Hadoop生态基础服务
• HDFS、YARN、HBase、Hive、Spark、Impala、Kudu等
• 自研有数中台
• 支持批流一体开发、指标管理、数据资产、任务调度运维等
• 大数据平台规模
• 6 个Hadoop集群,其中3个HDFS联邦
• 总节点数 5K+,单集群最大节点数 2200+
• 总存储量 400+ PB,平均使用率 67%(包括冷备存储 47+ PB)
• 日提交作业量 20W+,MR/Spark作业数接近 2:1            
                        
                6. 大数据应用现状            
                        
                7. EasyOps大数据管控平台
• 解决无法适配复杂架构问题(多集群、混部)
• 适配云上部署,解决管理工具兼容性问题
• 提供自动化运维方案,提升运维效率
• 提供产品化底层数据接口,服务数据中台
• 提高线上故障定位效率,减少故障恢复时间            
                        
                8. EasyOps大数据管控平台            
                        
                9. EasyOps大数据管控平台            
                        
                10. EasyOps大数据管控平台            
                        
                11. EasyOps大数据管控平台            
                        
                12. EasyOps大数据管控平台            
                        
                13. 通用的大数据服务运维框架
• 通用服务运维操作
• 前后端技术栈
• 平台架构说明
• 服务配置管理            
                        
                14. 通用服务运维操作
• 安装/卸载
• 配置
• 启停
• 升级/回滚
• 服务迁移
• 其他操作            
                        
                15. 通用服务安装流程            
                        
                16. Ansible技术栈
• ansible
• 运维配置管理工具
• ansible-runner
• 基于ansible封装后的自动化工具
• ansible-runner-service
• 提供基于ansible-runner的REST API访问接口            
                        
                17. Playbooks目录结构            
                        
                18. 前端技术栈
• Ant-Design UI
• TypeScript
• Vue
• vue-class-component
• ant-design-vue
• Grafana            
                        
                19. 后端技术栈
• SpringBoot
• DB(MySQL)
• Docker(Compose)
• GitBook/Docsify
• Prometheus            
                        
                20. 管控平台架构图            
                        
                21. 一次安装调用过程
返 回 状态            
                        
                22. 服务配置管理
• 配置组
• 变更历史
• 自定义配置参数
• 配置文件导入
返 回 状态            
                        
                23. 配置变更管理
返 回 状态            
                        
                24. 配置文件重写
返 回 状态            
                        
                25. 通用的大数据服务监控报警
• 通用监控组件
•
•
•
•
Prometheus
TSDB
Telegraf/Exporter/其他
Grafana
• 通用报警组件
• Grafana Alarm
• Alertmanager
• 定制报警            
                        
                26. Prometheus分布式架构            
                        
                27. Prometheus高可用            
                        
                28. 度量采集监控            
                        
                29. 日志监控            
                        
                30. 通用监控报表            
                        
                31. 通用报警            
                        
                32. 定制报警            
                        
                33. 运维经验交流
• 网络架构
• 存算分离
• 服务上云
• 性能优化            
                        
                34. 网络架构演进            
                        
                35. 存算分离架构演进            
                        
                36. 服务上云架构演进            
                        
                37. 性能优化
• 隔离IO
• 使用SSD
• 使用缓存
• 均衡负载
• 压缩数据
• 分离请求
• ...            
                        
                38. Q & A            
                        
                39.