小米可观测性在AI基建的实践之路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 小米可观测性在AI基建的实践之路 马千里
2. 目录 01 问题与思考 02 可观测平台现状 03 AI@ 可观测性 04 可观测性@AI 05 未来规划
3.
4. 01 问题与思考
5. 业务概况 指标 1400W/秒 日志 700TB/天 链路 300W/秒 事件 200W/天 所有业务 所有地区
6. 高频痛点 场景多 • 系统多:自建系统、外采系统 • 框架多:开源框架、自研框架 • 语 言 多 : Java 、 Python 、 Golang、C++ • 用法多:各类工具混用 效率低 • 难定位:告警多、调用关系复 杂 • Oncall 问题多 • 人力紧张
7. 经常被问的问题 这个功能怎么用 为什么有这个告警 监 控 系 统 现 在 有 问 题 吗 为什么没发告警 监控不可用了
8. 02 可观测平台现状
9. 能力全景
10. 指标监控架构 Prometheus为主 Falcon支持存量场景 主备集群 双AZ部署
11. 日志服务架构 业务日志架构 Loki架构
12. 链路服务架构 应用元数据上报 尾采样 业务独立分组 自定义保留时长
13. 事件中心架构
14. 指标监控 Prometheus 数据源管理 仪表盘 聚合规则 告警规则
15. 日志服务 ES:业务日志 Loki:基础服务日志
16. 链路服务 链路围绕应用关联各类数据
17. 事件中心 事件源管理 元数据管理 机器人管理 告警样式配置 屏蔽模版配置 合并模版配置
18. 事件中心 示例:屏蔽模版配置
19. Oncall管理 Oncall升级 主备Oncall 未处理告警升级
20. 自动化运维 以VM 为例 人工操作耗时 长 快速交付 单集群负载高 快速扩容 业务互相影响 数据迁移 部署方式不统一 业务隔离
21. 03 AI@ 可观测性
22. 核心痛点:SRE 规模化运维的挑战 复杂场景定位困难 运维琐事效率低下 运维数据繁杂过载 高频变更风险巨大 • 跨系统根因追溯难,排障 • 人力陷于重复操作,工具 • 系统产生的数据庞大,数 • 变更频繁,变更自动化不 据间关系复杂难以利用 足,变更风险预测困难 耗时占比高 • 依赖人工经验、跨系统链 路追踪断裂、工具割裂 碎片化致响应延迟 • 重复oncall 吞噬创新时间, 自动化覆盖不足 • 海量日志中有效信息埋没, 告警疲劳 • 发布节奏加快与稳定性矛 盾加剧
23. 建设理念:我们的思考 1 1. 数据为基,持续迭代 2. 人机协同,明确定位 数据的质量决定效果,海量数据的治 理与规范是基础 现阶段只是辅助,不强调取代人 4 建设理念 2 4. 安全可控,责任明晰 3. 场景驱动,结果导向 应对运维的确定性与大模型的不确定 性,规范管理权限,人决策 聚焦高价值痛点,逐步深化 3
24. 整体架构 场景 数据 模型
25. 基于MCP的多Agent实现 MCP工具管理 域名系统 CMDB IAM 事件中心 知识库
26. 基于MCP的多Agent实现 智能体管理 A gent 管理 自定义提示词
27. 基于MCP的多Agent实现 多智能体管理 Agent 组合 自定义提示词 任务分配 汇总结果
28. 基于MCP的多Agent实现 任务执行 Agent 组合 自定义提示词 任务分配 汇总结果
29. MCP 设计浅析 精简参数 时间戳 枚举定义 写好说明
30. 04 可观测性@AI
31. 模型开发平台能力概览
32. 网络监控 设备总览 采集状态 设备详情 拓扑信息 告警中心
33. 网络监控 多云对接 亚秒级监控 故障自愈
34. 网络监控 配置管理 Syslog 黑白名单 MIB管理 SNMP 配置
35. 网络监控架构 多协议支持 设备信息关联 Syslog模版匹配 亚秒级监控
36. 05 未来规划
37. 保障质量,深化能力 保障服务质量 提高运维效率 预警研发风险 产品交互提效 • 数据质量 • 做好 DevOps • 定位代码级问题 • 自然语言交互 • 数据完整性 • 支持 LLMOps • 预警代码提交风险 • 场景化看板 • 治理存量数据 • 迈向 AIOps • 校验环境差异 • 自动生成报告 • 技术升级 • 根因定位 • 优化成本 • 预测性预警 • 联动用户行为与后端链路
38.
39. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 12:45
浙ICP备14020137号-1 $访客地图$