小米可观测性在AI基建的实践之路
如果无法正常显示,请先停止浏览器的去广告插件。
        
                1. 小米可观测性在AI基建的实践之路
马千里            
                        
                2. 目录
01 问题与思考
02 可观测平台现状
03 AI@ 可观测性
04 可观测性@AI
05 未来规划            
                        
                3.             
                        
                4. 01
问题与思考            
                        
                5. 业务概况
指标 1400W/秒
日志 700TB/天
链路 300W/秒
事件 200W/天
所有业务
所有地区            
                        
                6. 高频痛点
场景多
• 系统多:自建系统、外采系统
• 框架多:开源框架、自研框架
• 语 言 多 : Java 、 Python 、
Golang、C++
• 用法多:各类工具混用
效率低
• 难定位:告警多、调用关系复
杂
• Oncall 问题多
• 人力紧张            
                        
                7. 经常被问的问题
这个功能怎么用
为什么有这个告警
监 控 系 统 现 在 有 问 题 吗
为什么没发告警
监控不可用了            
                        
                8. 02
可观测平台现状            
                        
                9. 能力全景            
                        
                10. 指标监控架构
Prometheus为主
Falcon支持存量场景
主备集群
双AZ部署            
                        
                11. 日志服务架构
业务日志架构
Loki架构            
                        
                12. 链路服务架构
应用元数据上报
尾采样
业务独立分组
自定义保留时长            
                        
                13. 事件中心架构            
                        
                14. 指标监控
Prometheus
数据源管理
仪表盘
聚合规则
告警规则            
                        
                15. 日志服务
ES:业务日志
Loki:基础服务日志            
                        
                16. 链路服务
链路围绕应用关联各类数据            
                        
                17. 事件中心
事件源管理
元数据管理
机器人管理
告警样式配置
屏蔽模版配置
合并模版配置            
                        
                18. 事件中心
示例:屏蔽模版配置            
                        
                19. Oncall管理
Oncall升级
主备Oncall
未处理告警升级            
                        
                20. 自动化运维
以VM 为例
人工操作耗时
长 快速交付
单集群负载高 快速扩容
业务互相影响 数据迁移
部署方式不统一 业务隔离            
                        
                21. 03
AI@ 可观测性            
                        
                22. 核心痛点:SRE 规模化运维的挑战
复杂场景定位困难 运维琐事效率低下 运维数据繁杂过载 高频变更风险巨大
• 跨系统根因追溯难,排障 • 人力陷于重复操作,工具 • 系统产生的数据庞大,数 • 变更频繁,变更自动化不
据间关系复杂难以利用 足,变更风险预测困难
耗时占比高
• 依赖人工经验、跨系统链
路追踪断裂、工具割裂
碎片化致响应延迟
• 重复oncall 吞噬创新时间,
自动化覆盖不足
• 海量日志中有效信息埋没,
告警疲劳
• 发布节奏加快与稳定性矛
盾加剧            
                        
                23. 建设理念:我们的思考
1
1. 数据为基,持续迭代 2. 人机协同,明确定位
数据的质量决定效果,海量数据的治
理与规范是基础 现阶段只是辅助,不强调取代人
4
建设理念
2
4. 安全可控,责任明晰 3. 场景驱动,结果导向
应对运维的确定性与大模型的不确定
性,规范管理权限,人决策 聚焦高价值痛点,逐步深化
3            
                        
                24. 整体架构
场景
数据
模型            
                        
                25. 基于MCP的多Agent实现
MCP工具管理
域名系统
CMDB
IAM
事件中心
知识库            
                        
                26. 基于MCP的多Agent实现
智能体管理
A gent 管理
自定义提示词            
                        
                27. 基于MCP的多Agent实现
多智能体管理
Agent 组合
自定义提示词
任务分配
汇总结果            
                        
                28. 基于MCP的多Agent实现
任务执行
Agent 组合
自定义提示词
任务分配
汇总结果            
                        
                29. MCP 设计浅析
精简参数
时间戳
枚举定义
写好说明            
                        
                30. 04
可观测性@AI            
                        
                31. 模型开发平台能力概览            
                        
                32. 网络监控
设备总览
采集状态
设备详情
拓扑信息
告警中心            
                        
                33. 网络监控
多云对接
亚秒级监控
故障自愈            
                        
                34. 网络监控
配置管理
Syslog 黑白名单
MIB管理
SNMP 配置            
                        
                35. 网络监控架构
多协议支持
设备信息关联
Syslog模版匹配
亚秒级监控            
                        
                36. 05
未来规划            
                        
                37. 保障质量,深化能力
保障服务质量 提高运维效率 预警研发风险 产品交互提效
• 数据质量 • 做好 DevOps • 定位代码级问题 • 自然语言交互
• 数据完整性 • 支持 LLMOps • 预警代码提交风险 • 场景化看板
• 治理存量数据 • 迈向 AIOps • 校验环境差异 • 自动生成报告
• 技术升级 • 根因定位 • 优化成本 • 预测性预警
• 联动用户行为与后端链路            
                        
                38.             
                        
                39. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining The Software