亿级用户背后的智能诊断:多模态数据融合与实时诊断实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 亿级用户背后的智能诊断:多模态数 据融合与实时诊断实践 徐建伟
2. 目录 01 从"人肉排查"到"AI诊断":bilibili 的痛点与机遇 02 智能诊断核心架构和演进思路 03 核心场景的 AI 化改造实践 04 技术演进方向与实践展望
3.
4. 01 从"人肉排查"到"AI诊断" bilibili 的痛点与机遇
5. 亿级用户背景下的故障挑战:复杂度指数级增长 当故障发生时,监控系统 会几百个服务,成千上万 的组件中瞬间产生海量 的、多维度的原始数据 数据洪流与信息过载 规模庞大、组件繁多、交 互关系错综复杂,而依赖 的传递性与放大效应会导 致排查困难 系统复杂度与依赖黑洞 微服务之间都是网状调 用,一个服务挂了,所有 依赖它的服务都可能被拖 垮,形成雪崩效应 故障发生时,多个团队 (网络、基础设施、应 用、数据库)在高压下如 何快速协同,避免扯皮和 信息混乱。 爆炸半径与隔离难度 组织协同与沟通成本
6. 传统线上排障的三大瓶颈 时间成本 准确率 知识传承 手动排查,流程串联 依赖经验,易误判 知识隐性,难复制 拉群、查日志、口头同步 MTTR (平均恢复时间)过长,业务 损失 拉群、查日志、口头同步 处理方案无效,甚至扩大故障 “大神”的直觉和经验 人员变动导致运维能力断崖式下跌
7. AI 技术带来的机遇:数据驱动 + 智能推理 数据 高质量、统一的可观 测性数据基础 领域知识与AI技术的深度 融合 反馈 稳定性建设 持续学习与反馈优化 能力 知识 与运维系统和办公协 同软件集成 协同
8. 02 根因分析核心架构和演进思路
9. 场景化分析模型 整体架构 多模态 知识图谱 模型分析 日志 CMDB 关联图谱 业务下跌 链路 接口上下游,强弱图谱 请求异常场景 指标 event 数据库关联图谱 慢请求场景 profiling 缓存关联图谱 异步消息图谱 数据延迟
10. 多模态数据融合 1 2 3 4 Metric & alarm 按照一段时间聚合(默认30秒), Trace 明细采样数据,微服务之间的调用关系明细 Log ,明细数据,记录一些关键信息和异常信息 Event & Profiling 关联数据, 相互印证可能的原因
11. 知识图谱构建 多源数据集成 知识抽取与实体关系定义 将来自不同源头、不同格式的监控数据(主要是指 标、日志、追踪)进行采集、对齐、关联和融合, 形成一个统一的、具有上下文的视图 多源异构的运维数据中,自动识别和提取出关键的、 结构化的信息片段,这些信息片段将成为知识图谱 中的“实体”和“属性” 知识存储与图谱构建 在线推理与自动处置 规则注入与图谱增强 选择了为关系查询而生的图数据库作为最佳载体, 将散落的知识点有机地整合成一张映射真实系统架 构的语义网络 知识应用与智能推理 利用已经构建好的、结构化的知识库(知识图谱), 通过模拟人类专家的思维过程,对实时故障数据进 行自动分析、推理和决策 抽象归纳与规则定义 案例沉淀与模式发现
12. 大小模型分析 自然语言处理 + 时序分析的深度融合 时序算法分析 时序分析算法(如异常检测模型)检测到某个服务的P99 延迟指标在10:05:00出现一个尖 峰(异常点)。. 多模态数据关联与上下文 构建 系统根据触发异常的时间点和实体,自动拉取相关时间段内的所有关联数据,并将其组织 成一个结构化的“上下文窗口” 大模型推理与分析 准备好的多模态上下文信息,精心构造成提示词(Prompt ),提交给大模型(如GPT - 4, LLaMA , 或领域微调的模型)进行分析
13. 数据提纯:打造高信噪比的诊断燃料 清洗 去重,无效值处理,噪音过滤,格式化 1 对齐 时间对齐(时间同步,时间窗口划分) 实体对齐(标签统一,拓扑关联) 2 增强 富化(添加更多描述性标签) 衍生指标计算(从原始指标中计算出更有业务意义的表现力指标) 模式发现(发现频繁出现的错误模式) 3 去芜存菁,得到原材料 大幅减少数据量,只保留与本次故障强相关的数 据片段。这是降低噪音的关键一步。 搭建骨架,建立数据之间的时空关联 对过滤后的数据进行分组、统计和模式识别,将零散的 个体异常汇总成群体性规律,从而发现共性问题。 画龙点睛,注入业务语义和上下文 将不同来源(日志、指标、追踪)和不同组件的数据进 行交叉关联,为故障点补充完整的上下文,最终定位根 因。这一步是“为什么”的关键。
14. 模型迭代:动态调整推理边界 1 执行诊断与产生证据 模型基于当前的推理边界(如:只检查直接依 赖的服务)对故障进行初步分析,并输出诊断 结果(如:根因是服务A )和支持该结果的证 据链(如:因为服务A 的延迟飙升,且错误日 志显示XXX ) 2 3 推理边界调整分析 3 1 根据反馈,系统会分析上次推理的不足,并决 定如何调整边界 4 4 模型与知识库更新和重跑验证 2 结果验证与反馈获取 描述:诊断结果需要接受验证。这可以通过两 种方式: 人工反馈:运维专家确认或驳回结论。 自动化验证:系统执行修复动作(如重启服 务A )后,观察指标是否恢复正常。 关键:这个反馈是模型迭代的“黄金标准”。 将分析后的调整策略应用到模型和知识库中。 让 AI 学会“灰度思考 带着更新后的、调整了推理边界的模型,对这 次故障进行重新诊断,验证结果
15. 工单即训练集: 每一次人工复盘都是模型的进化机会 在此过程中,所有操作、观察点和时间线都被系统化 地记录(如通过统一的运维平台),为后续复盘提供 原始数据 发生故障与人工处置 1 生成高质量工单与复盘报告 4 故障解决后,负责人撰写复盘报告。这份报告是监督 学习中的“标注数据” 2 报告解析与知识提炼 3 AIOps 系统利用NLP 技术(如大模型)自动解析复盘报 告,将其中的非结构化文本转化为结构化的知识 模型更新与进化 将上一步提炼出的结构化知识注入到各类模型中,模 型从“新知识”中学习,实现了进化
16. 03 核心场景的 AI 化改造实践
17. 视频播放异常:从告警到根因定位的 3 分钟闭环 现象 定界定位 Dolor ex consectetuer ea dolor no takimata aliquam ipsum in iriure iriure ut labore. 触发可用率告警后自动触发根因分析,30 秒后推出根因分析,快速定位
18. 场景化分析模型 领域知识库构建和因子关联 mysql SLO 接口异常/耗时长 缓存 慢查询/长查询 mq 数据连接异常- > 连接池打满,网络连通情况, 服务端运行健康状态 慢sql- > 扫描行数,索引使用,锁占用 物理机cpu 、内存、io出现瓶颈或者故障 消费者延迟或消息堆 积 上游请求变化 下游异常波动 客户端检测 连接池使用情况(连接池慢,或者 未正确关闭) Producer 生产速率 服务端写入情况 采样trace/log的 详情 容器/主机异常, 运行时异常 查找/扫描记录 (识别大key,大命 令) Consumer 的消费速率 Consumer 资源变化情况 关联变更 资源使用情况 (内存耗尽,内存碎 片等) Rebalance 日志
19. 推荐系统降级:多组件级联故障的智能溯源 现象 定界定位
20. 04 技术演进方向与实践展望
21. 场景覆盖的扩展 降低用户领域知识到根因模型的转化门槛 业务特定场景 基础硬件和系统层 中间件服务端 应用SLO 中间件服务端 微服务可用率 对应用相关的指标,链路,日志 进行分析,找到可用率下跌的原 因 对数据库,缓存,消息中心等基 础组件进行根因分析。 比如常见的慢sql问题,缓存击穿 等 系统层或者硬件层 对网络,物理机,容器,系统层 等进行根因分析, 比如节点与硬件故障,网络故 障,oom ,oomkiller 业务场景 对业务自身的逻辑进行问题定 位,尤其是一些客服召回的 比如说交易下跌,直播在线人数 突降,弹幕事实同步下降
22. •准确率的持续提升 从问题定界向精准定根因的技术深化 演化 知识库 推导优化 多根因方式定界,有一个命中就算成功 集成强弱依赖 特征增强 变更明细 因果关系 第一根因准确定界才算成功 异常归类 根因链路合并 第三方接口集成 第一根因从定界到定位 通用库日志集成 历史数据因果特征构造
23.
24. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-02 20:16
浙ICP备14020137号-1 $访客地图$