小米可观测性在AI基建的实践之路

1. 小米可观测性在AI基建的实践之路马千里

2. 目录 01 问题与思考 02 可观测平台现状 03 AI@ 可观测性 04 可观测性@AI 05 未来规划

3.

4. 01 问题与思考

5. 业务概况指标 1400W/秒日志 700TB/天链路 300W/秒事件 200W/天所有业务所有地区

6. 高频痛点场景多 • 系统多：自建系统、外采系统 • 框架多：开源框架、自研框架 • 语言多： Java 、 Python 、 Golang、C++ • 用法多：各类工具混用效率低 • 难定位：告警多、调用关系复杂 • Oncall 问题多 • 人力紧张

7. 经常被问的问题这个功能怎么用为什么有这个告警监控系统现在有问题吗为什么没发告警监控不可用了

8. 02 可观测平台现状

9. 能力全景

10. 指标监控架构 Prometheus为主 Falcon支持存量场景主备集群双AZ部署

11. 日志服务架构业务日志架构 Loki架构

12. 链路服务架构应用元数据上报尾采样业务独立分组自定义保留时长

13. 事件中心架构

14. 指标监控 Prometheus 数据源管理仪表盘聚合规则告警规则

15. 日志服务 ES：业务日志 Loki：基础服务日志

16. 链路服务链路围绕应用关联各类数据

17. 事件中心事件源管理元数据管理机器人管理告警样式配置屏蔽模版配置合并模版配置

18. 事件中心示例：屏蔽模版配置

19. Oncall管理 Oncall升级主备Oncall 未处理告警升级

20. 自动化运维以VM 为例人工操作耗时长快速交付单集群负载高快速扩容业务互相影响数据迁移部署方式不统一业务隔离

21. 03 AI@ 可观测性

22. 核心痛点：SRE 规模化运维的挑战复杂场景定位困难运维琐事效率低下运维数据繁杂过载高频变更风险巨大 • 跨系统根因追溯难，排障 • 人力陷于重复操作，工具 • 系统产生的数据庞大，数 • 变更频繁，变更自动化不据间关系复杂难以利用足，变更风险预测困难耗时占比高 • 依赖人工经验、跨系统链路追踪断裂、工具割裂碎片化致响应延迟 • 重复oncall 吞噬创新时间，自动化覆盖不足 • 海量日志中有效信息埋没，告警疲劳 • 发布节奏加快与稳定性矛盾加剧

23. 建设理念：我们的思考 1 1. 数据为基，持续迭代 2. 人机协同，明确定位数据的质量决定效果，海量数据的治理与规范是基础现阶段只是辅助，不强调取代人 4 建设理念 2 4. 安全可控，责任明晰 3. 场景驱动，结果导向应对运维的确定性与大模型的不确定性，规范管理权限，人决策聚焦高价值痛点，逐步深化 3

24. 整体架构场景数据模型

25. 基于MCP的多Agent实现 MCP工具管理域名系统 CMDB IAM 事件中心知识库

26. 基于MCP的多Agent实现智能体管理 A gent 管理自定义提示词

27. 基于MCP的多Agent实现多智能体管理 Agent 组合自定义提示词任务分配汇总结果

28. 基于MCP的多Agent实现任务执行 Agent 组合自定义提示词任务分配汇总结果

29. MCP 设计浅析精简参数时间戳枚举定义写好说明

30. 04 可观测性@AI

31. 模型开发平台能力概览

32. 网络监控设备总览采集状态设备详情拓扑信息告警中心

33. 网络监控多云对接亚秒级监控故障自愈

34. 网络监控配置管理 Syslog 黑白名单 MIB管理 SNMP 配置

35. 网络监控架构多协议支持设备信息关联 Syslog模版匹配亚秒级监控

36. 05 未来规划

37. 保障质量，深化能力保障服务质量提高运维效率预警研发风险产品交互提效 • 数据质量 • 做好 DevOps • 定位代码级问题 • 自然语言交互 • 数据完整性 • 支持 LLMOps • 预警代码提交风险 • 场景化看板 • 治理存量数据 • 迈向 AIOps • 校验环境差异 • 自动生成报告 • 技术升级 • 根因定位 • 优化成本 • 预测性预警 • 联动用户行为与后端链路

38.

39. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software