重塑可观测边界:小红书在大模型时代的稳定性工程实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 重塑可观测边界:
2.
3. 录 03 04 01 红书可观测现状以及 AI 时代 临的挑战 AI Infra 可观测: 向训推服务的稳定性体系建设 向稳定性提效的 AI Agent 场景建设与探索 未来规划
4. 红书可观测现状以及 AI 时代 临的挑战 01
5. 红书可观测体系在稳定性
6. 红书可观测在 AI 时代的变化 运 为变化 表达 式变化 可观测边界变化 GPU 集群 模型 训练/推理 Agent
7. 红书可观测在 AI 时代 临的挑战 故障放 效应
8. 为什么需要 AI 可观测 • AI 训练稳定性管理已经成为智能时代的精密 模,整个任务会发 • 基础设施交付和运 程,尤其是在千卡甚 各种故障,导致资源利 率不 • AI 应 需兼顾可 性、性能与效果体验的多重质量 昂的成本使得业务对 常 的要求。 标,使得业务连续性保障 挑战。 更 或任务中断。 中的质量保障是稳定性基础,GPU GPU 交付质量、节点故障感知、处置时效性都要 万卡以上规 临
9. 02 AI Infra 可观测: 向训推服务的稳定性建设
10. 业务痛点 故障率 环境异构挑战 故障发现与定位难
11. 训练任务痛点问题分析
12. 整体建设思路
13. 2-1 GPU 资源稳定性保障
14. GPU 故障等级定义
15. GPU 稳定运营与故障感知 场景 整体异常分析 GPU 可 性 SLO 多维异常度量 撑 单节点问题排障 节点/GPU 可 性状态 单卡诊断/监控下钻
16. GPU 节点 愈 愈流程
17. GPU 观测落地成果与最佳实践 提供 GPU 全局监控能 以及单机故障诊断能 , 持 20+ 故障指标识别, 可解决 80%+ GPU 硬件故障诊断定位。 单节点问题排障 整体异常分析
18. 2-2 训练任务 Hang 的发现与故障定位
19. 训练任务发 所有任务程序 Hang 可能的表现 志不输出 进程调 指标突变并持续维持某个状态 栈不再变化
20. 问题分析与设计思路 设计的依据:NCCL 和矩阵乘是分布式训练的核 点构建相关核 操作,以此为锚 指标统计,不仅可以实现较精确的 Hang 检测, 且可以有效辅助故障定位和性能分析。 判定 Hang 的核 思路:对矩阵计 算、NCCL 调 等核 函数进 Hook 拦截,监控对应的操作记 录;当事件超过指定的超时时间未 拿到返回结果,判断为 Hang。
21. 整体技术
22. 故障定位的核 思路(基础场景) 故障表现: • 受影响节点:表现基本 致 • 故障节点:与其他节点有明显表现差异 通过对 差异快速定位故障源头
23. 进程栈采集与聚合 栈聚合 栈采集 • 相同前缀、线程名聚合 只要有 触发 个 rank hang,认为这个训练任务 hang 住, 次 stack dump • 寻找分叉点
24. 故障定位的核 思路(复杂场景) 故障源头 rank 和其他 rank,在 NCCL 的通信状态上有差异
25. NCCL 络通信故障的定位与拓扑还原 Send: posted->transmitted->done Rev: done<-transmitted<-Received<-posted
26. 业务实战案例分享:监控指标 NCCL 通信指标 训练总览 基础指标 矩阵乘指标
27. 业务实战案例分享:智能诊断报告 诊断报告 栈分析
28. 业务实战案例分享:NCCL ring tree 络通信故障定位
29. 向稳定性提效的 AI Agent 场景建设与探索
30. 从可观测 AI 助 开始 数据分析&根因诊断 最佳实践 Workflow 业务 定义场景
31. 产品定位与
32. 稳定性 AI 图
33. 模型的优势与劣势(现阶段) 模型不适合做什么 精确计算任务 数据量处理 多维聚合与下钻 户友好的可视化表达
34. 基建 度:需要解决的核 • 原始数据量 , 模型缺乏 问题 效的数据处理能 ,如可观测领域 法提供很好的 户友好的可视化解释 能 , 式 以及 具动 • 缺少 的记忆管理能 • 缺乏对数据上下 • 跨团队之间的数据交互问题,各团队 Agent 建设处于百花 放的阶段 由对话效果
35. 传统 AIOps 的故障定位能 准确率和效率 扩展性有限 专家经验 局限性 、可控性强 法复 可解释性和 户交互不友好
36. 模型和 AI 时代在 OPS 向带来的改变 构建智能运维核 成式 AI 改善产品交互 提升产品易 性和多样性 模型+LLM+Agent 增强产品竞争
37. 智能诊断底座 传统 AI 分析与 LLM 深度结合 灵活可插拔的 可复 具调 能 的智能诊断 Agent 赋能多个技术平台产品
38. Agent 协议“三剑客” AG-UI:Agent 与 户沟通的桥梁 A2A:Agent 之间沟通协作的标准 MCP:Agent 调 外部 具的标准
39. Multi Agent 技术架构设计 中央集权 分层委派 分 治之 模块化管理
40. 多层次记忆模块设计 在于信息价值的最 期知识 化 历史摘要
41. Flow Engineering • 复杂任务:拆解,LLM + function 组合,推荐 LangGraph • 模型在 个受控的、多步骤 的流程 性“ 作, 不是 箱”输出 • 简单任务:配置 件, write prompt,not code • prompt 按场景抽象可复 模板 次
42. 交互与输出范式 具调 展示 ……
43. 业务提效赋能:AI 分身 作助 技能
44. 最佳实践分享: 险治理 险运营 险 单分析
45. 最佳实践分享:诊断分析 服务诊断分析 异常告警根因分析
46. 最佳实践分享:AI 分身 作 志
47. 未来规划 RL + Observability Observability for RL 为与轨迹观测 尾 Request 分析 分布式 Profiling RL for Observability 双向赋能 智能告警 异常检测(专家规则) 时序理解与推理
48. 未来规划 AI 时代 Ops 新的范式会出现 个性化运维 运维智能化 全域数据 专家算法 险模型 智能决策
49.
50. THANKS 模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-02 20:16
浙ICP备14020137号-1 $访客地图$