米家故障应急保障体系实战:稳中求胜的构建之道-v4.0

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 家故障应急保障体系实战
2. 录 01 IoT技术架构全景 02 IoT质量保障的问题和挑战 03 应急体系的科学构建 04 亿级设备故障处置案例复盘 05 互动研讨
3.
4. 01 IoT技术架构全景 架构解析
5. 全球领先的消费级 AIoT 平台
6. 全球领先的消费级 AIoT 平台 1 户 亿 活 1.3 开发者 万
7. 本地化演进,打造快速、稳定、合规的全球性 IoT 平台 全球 6 区域本地化部署 连接全球 8亿+ 设备 1亿+ 户
8. 从家庭设备联动到 OT 系统 系统接 IoT 事件上报 OT 接 关 IoT 设备控制 RMQ 系统控制 OT 绑定 OT 属性 事件上报 设备联动 MySQL 关 OT 控制 SPEC标准库 Redis Pega sus
9. 业务复杂度下的 SDS Hive FDS ES S3
10. 全链路服务治理与多机房容灾 主 主从同步 从 从 配置服务
11. 02 IoT质量保障的问题和挑战 压 过载·交付平衡的双重困境
12. 困境·压 A C 家App影响 故障后 户的 活 量客诉,快速冲上热搜
13. 困境·交付平衡
14. 03 应急体系的科学构建 从预警到处置的全链路可靠性 程
15. 三层体系建设 技术运营可靠性保障 改进
16. 流程层-技术 FMEA(故障模式与影响分析) 险评估矩阵和优化建议 CheckList 档
17. 流程层-架构韧性评估 机制 韧性验证 红蓝对抗及内部漏扫 故障注 测试
18. 流程层-发布策略规划 机制 数据 致性保障 流量回放
19. 流程层-稳定性准 混沌 程 告警降噪
20. 具层-研运 体化平台DevX 持续集成 动化编译 代码质量 持续发布 单元测试 环境管理 流程防呆 合并检查 灰度策略 应 变更管控 CI/CD 流 监控关联 线 主机-容器发布 发布
21. 具层-研运 体化平台
22. 具层-智能运维平台 具 SRERobot AI Coder 变更检测 RCA 预测 AI 赋能
23. 具层-智能运维平台-巡检 巡检场景
24. 具层-智能运维平台-故障分析
25. 具层-RCA causalml Dependency Graph RootNode & Confidence & CausalChain AI Model RCA
26. 组织层-应急响应机制 动定级 启动作战室 赋能 信息同步 预案执 状态反馈
27. 组织层-应急响应机制-案例 报警唤醒协同
28. 组织层-应急响应机制-案例 RCA 根因分析
29. 组织层-应急响应机制-案例 复盘改进
30. 04 亿级设备故障处置案例复盘 跨机房专线中断致业务异常 | 云服务商 灾触发数据锁定
31. 案例
32. 案例 轮内部复盘拉通 还原事实 评估影响 原因分析 问题反思 改进优化 跟踪反馈 性全部恢复 预案处置 故障复盘
33. 案例 :云 商 灾触发数据锁定 F4-OSS F3-F4-PDU F3-服务器 F2-服务器 触发原因 F1-服务器 A栋 故障楼宇示意图 B栋 C栋
34. 案例 :云 商 灾触发数据锁定-应急响应 09-10 11:22 ~ 12:10 执 09-10 10:20 可 区C出现可 内业务恢复 性波动,1分钟 09-10 11:20 可 区C再次出现可 性波动 启动预案作战室,决策扩容 A|B, 缩容C区资源容灾切换 响应定位 09-10 12:10 ~ 13:10 09-12 15:00 OSS读写异常,拉通云 商 优恢 复写请求,等待OSS历史数据召回 完成第 09-10 13:15 业务可 性恢复99.9%以上,但部 分读数据仍然锁定。 09-10 11:22 预案,故障区切换缩容完毕。 轮内部复盘拉通 还原事实 评估影响 原因分析 问题反思 改进优化 跟踪反馈 09-10 20:23 业务数据 优抢救并修复完毕,业 务完整恢复。 预案处置 故障复盘
35. 05 互动研讨 请各位同仁提问指正
36.
37. THANKS 模型正在重新定义软件 Large Language Model Is Redefining The Software

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:48
浙ICP备14020137号-1 $Map of visitor$