米家故障应急保障体系实战:稳中求胜的构建之道-v4.0
如果无法正常显示,请先停止浏览器的去广告插件。
1. 家故障应急保障体系实战
2. 录
01 IoT技术架构全景
02 IoT质量保障的问题和挑战
03 应急体系的科学构建
04 亿级设备故障处置案例复盘
05 互动研讨
3.
4. 01
IoT技术架构全景
架构解析
5. 全球领先的消费级 AIoT 平台
6. 全球领先的消费级 AIoT 平台
1
户
亿
活
1.3
开发者
万
7. 本地化演进,打造快速、稳定、合规的全球性 IoT 平台
全球 6 区域本地化部署
连接全球 8亿+ 设备
1亿+ 户
8. 从家庭设备联动到
OT
系统
系统接
IoT 事件上报
OT 接
关
IoT
设备控制
RMQ
系统控制
OT 绑定
OT 属性
事件上报
设备联动
MySQL
关
OT 控制
SPEC标准库
Redis
Pega
sus
9. 业务复杂度下的
SDS
Hive
FDS
ES
S3
10. 全链路服务治理与多机房容灾
主
主从同步
从
从
配置服务
11. 02
IoT质量保障的问题和挑战
压
过载·交付平衡的双重困境
12. 困境·压
A
C
家App影响
故障后
户的 活
量客诉,快速冲上热搜
13. 困境·交付平衡
14. 03
应急体系的科学构建
从预警到处置的全链路可靠性
程
15. 三层体系建设
技术运营可靠性保障
改进
16. 流程层-技术
FMEA(故障模式与影响分析)
险评估矩阵和优化建议
CheckList
档
17. 流程层-架构韧性评估
机制
韧性验证
红蓝对抗及内部漏扫
故障注
测试
18. 流程层-发布策略规划
机制
数据
致性保障
流量回放
19. 流程层-稳定性准
混沌
程
告警降噪
20. 具层-研运
体化平台DevX
持续集成
动化编译
代码质量
持续发布
单元测试 环境管理 流程防呆
合并检查 灰度策略 应
变更管控
CI/CD 流
监控关联
线
主机-容器发布
发布
21. 具层-研运
体化平台
22. 具层-智能运维平台
具
SRERobot AI Coder
变更检测 RCA 预测
AI 赋能
23. 具层-智能运维平台-巡检
巡检场景
24. 具层-智能运维平台-故障分析
25. 具层-RCA
causalml
Dependency Graph
RootNode & Confidence & CausalChain
AI Model
RCA
26. 组织层-应急响应机制
动定级
启动作战室
赋能
信息同步
预案执
状态反馈
27. 组织层-应急响应机制-案例
报警唤醒协同
28. 组织层-应急响应机制-案例
RCA 根因分析
29. 组织层-应急响应机制-案例
复盘改进
30. 04
亿级设备故障处置案例复盘
跨机房专线中断致业务异常 | 云服务商
灾触发数据锁定
31. 案例
32. 案例
轮内部复盘拉通
还原事实 评估影响
原因分析 问题反思
改进优化 跟踪反馈
性全部恢复
预案处置
故障复盘
33. 案例
:云
商
灾触发数据锁定
F4-OSS
F3-F4-PDU
F3-服务器
F2-服务器
触发原因
F1-服务器
A栋
故障楼宇示意图
B栋
C栋
34. 案例
:云
商
灾触发数据锁定-应急响应
09-10 11:22 ~ 12:10
执
09-10 10:20
可 区C出现可
内业务恢复
性波动,1分钟
09-10 11:20
可
区C再次出现可 性波动
启动预案作战室,决策扩容 A|B,
缩容C区资源容灾切换
响应定位
09-10 12:10 ~ 13:10 09-12 15:00
OSS读写异常,拉通云 商 优恢
复写请求,等待OSS历史数据召回 完成第
09-10 13:15
业务可 性恢复99.9%以上,但部
分读数据仍然锁定。
09-10 11:22
预案,故障区切换缩容完毕。
轮内部复盘拉通
还原事实 评估影响
原因分析 问题反思
改进优化 跟踪反馈
09-10 20:23
业务数据 优抢救并修复完毕,业
务完整恢复。
预案处置
故障复盘
35. 05
互动研讨
请各位同仁提问指正
36.
37. THANKS
模型正在重新定义软件
Large Language Model Is Redefining The Software