AI x ⼤前端性能稳定性:快⼿亿级DAU下的智能诊断实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AI x 大前端性能稳定性: 快手亿级DAU下的智能诊断实践 李锐
2.
3. 你焦虑吗 AI coding + AI debug 完美闭环,程序员会被替代? Cursor Anthropic ACM Final IMO 100亿美金 1830亿美金 满分夺冠 金牌水平
4. 性能稳定性视⻆ 报警事件(年) 必解问题(年) AI 能释放多少生产力? 工程庞大
5. 个人介绍 李锐 • 快手 / 移动端稳定性负责人 • 2019 年加入快手,曾就职阿里、FaceUnity、华为 • 主导快手移动端稳定性「监控拦截」「排障止损」 「应急处置」多领域建设 • 喜欢研究操作系统、编译器、虚拟机等底层技术 • KOOM 开源项目作者
6. 目录 01 快手性能稳定性背景(发展历程 | 关键挑战) 02 AI x 性能稳定性介绍(分析判断 | 重点建设 | 如何实施) 03 实践:AI 辅助根因排障(排障本质 | Holmes | 火焰图) 04 实践:AI 加速应急处置(止损工具 | Ekko | 效果分析) 05 总结展望(Agent 开发感悟 | 人机协同 | 认知提升)
7. 快手性能稳定性背景 发展历程 | 关键挑战
8. 背景 快手稳定性发展历程 2025 ~ 至今 2024 2021 2019 L2 工具平台化 L1 基础可观测性 基础可观测 自研APM 稳定性问题治理 KOOM/MTE L3 体系化 故障防御体系 Ekko/Holmes L4 智能化 AI x 稳定性 兼顾成本和效率
9. 背景 2025,性能稳定性仍是大前端的关键挑战 业务复杂 终端环境复杂 技术栈复杂 机型 特征 JsCore 原生开发 ReactNative 物理 环境 资源 占用 技 术 栈 H5 大前端 稳定性 运 行 时 ART KMP KN 系统机制 用户 操作 跨团队协作,迭代速度 缓存 数据 执行不可控,不可穷举 V8 线程模型差异 内存模型差异 FFI生命周期 触及底层,疑难杂症
10. AI x 性能稳定性介绍 分析判断 | 重点建设 | 如何实施
11. AI 带来的机遇 - 分析判断 调试推理 时间占满 系统知识 人:成⻓速度 专家工程师 资源错配 工具使用 人的要求 事:程序质量 无法胜任 经验积累 普通工程师 判断 AI x 性能稳定性:团队产出放大器,反哺性能稳定性提升
12. AI 带来的机遇 - 稳定性体系化建设现状 拦截左移 开发 技 术 体 系 测试 准入 应急处置 监控排障 灰度 监控 报警 排障 归因 止损 技术方案评审 自测联调 Mulan 流水线 发版灰度 Keep看板 OnCall值周 问题分配 分级触达 分级报警 Katrix SOP AB/Kswitch 归因 安全模式 稳定性编码 规范 QA回测 静态扫描 自定义灰度 厂商合作 AB 巡检 日志分析 路径追踪 分场景报警 信息同步 Kconf归因 安全气垫 CodeReview 单元测试 自动化实验室 崩停监控 客诉舆情 防劣化检测 系统领域知识 业务领域知识 自定义报警 决策机制 运营平台归因 线上修复 IDE检查 自动化测试 核心链路加固 数据监控 VIP监控 KeepHelper 调试工具 异常现场还原 预警机制 ⻆色分工 端上重点事件 版本增发 运营体系 运营 管理 体系 处置 稳定性文化建设 故障演练 管理体系 活动保障 目标管理 变更管控 OnCall管理 复盘管理 稳定性负责人 稳定性专家小组 演练平台 FT 常态演练机制 活动保障SOP 准出红线 故障定级标准 窗口期管控 值班安排 重视复盘 稳定性作战室 稳定性复盘会 预案管理 故障处置打分 上下游协同机制 内测/公测规范 奖惩机制 分级发布 决策机制 TODO管理 AI 发力点如何聚焦?
13. AI 带来的机遇 - 重点建设领域 根因 排障 处置 AI辅助 ↓ AI代替 疑 难 处 置 核心问题 简 单 处 置 核心问题 流程拆解 流程拆解 核心问题:复杂偶发问题,需要知识积累,强依赖专家经验,修复速度慢。 研究假设 学习问题 调试验证 执行修复 核心问题:简单问题重复发生,有“固定套路”,研发时间投入在重复性事务中。 旧解决方案检索 问题识别 核心问题 修复代码编写 流水线合入 核心问题:复杂多维度数据分析,排障线索分散,影响故障处置⻩金时间。 故障应急处置 (AI加速) 故障响应 故障处理 故障分析 流程拆解 告警接手 拉群处置 指标关联归因 变更归因 问题归因 处置决策 处置执行
14. 如何实施 :性能稳定性 Agent 架构介绍 Agent 业务层 根因修复 Agent 故障止损 Agent 指标巡检 Agent Agent 产品层 KIM 报告 MR 修复 多轮对话 Agent 编排 Agent 框架层 链式编排 Agent 策略 图编排 人机协作 服务基建层 Think tool Gemini CLI 多模态 Keep 平台 MCP 结构化输出 工具调用 源码 MCP Metric 日志 产品形态 Claude Code 技术选型 Codex 工具 深度思考 流式/结构化响应 业务场景 基于 CLI 的 Agent Plan And Execute LLM Agent 基建层 ReAct 等等… 上下文 Kim MCP 基准评测 上下文注入 知识增强 短期记忆 ⻓期记忆 成本统计 AI 基建 后端基建
15. 实践:AI 辅助根因排障 排障本质 | Holmes | 火焰图
16. AI 辅助根因排障:从一例 NPE 谈起 案例:NPE 问题都很简单? 问题难度 ⭐⭐⭐⭐⭐ • 堆栈特征:纯系统堆栈崩溃,没有 一行业务代码逻辑。 • 现场缺失:触发NPE滞后,无异步 更新UI的第一现场。 • 复现困难:在特殊场景下概率性触 发,线下调试困难。 • 历史频发:影响活动放量。 活动发布,屡次出现
17. AI 辅助根因排障 ❓ 2025,AI 能秒掉这个 NPE 问题吗
18. AI 辅助根因排障:调研数据 Ø 96%认为在日常崩溃排障中存在痛点; Ø 69%认为崩溃现场信息过少,偶现问题无法复现,问题无法排查; Ø 50%认为日志过多,无法快速找到问题关联日志,问题无法排查。 * 调研方法:问卷 96% 69% 50% 存在痛点 信息过少 日志过多 样本量:80 调研时间:25/09 • 软件开发者花费35-50%的时间在验证和调试软件上,调 试、测试和验证的成本估计占软件开发项目总预算的50-75% 来源:ACM Queue - The Debugging Mindset (2017)
19. AI 时代编程范式(性能稳定性视⻆) Talk is cheap, show me the code. 核心复杂度 Code is cheap, show me the fix (bugfree).
20. AI 辅助根因排障:排障本质 & AI 能力分析 ra · 数 cs / t 察 tr ①观 / me i 怀疑 · 候 / 排 选原 查方 因 向 观察 → 假设 → 验证 模型能力上限 垂直工具使用 解决方案 2 验证假设 3 提出假设 4 问题总结 验 实 行 · 执 境 验 环 行 ④实 执 模型能力胜任度 ④ ⑤ 证据 · 结 :缩 果 小范 分析 围 AI薄弱区:人机协同 ③ ⑤结 果 1 排障核心循环 AI擅⻓区:激发引导 专家经验 s log ②假 原因 设 集 s 据收 c e ①② AI 瓶颈区:分治规避 推理深度、上下文⻓度、 模型幻觉 参考:MIT 6.031 课程-debugging https://web.mit.edu/6.031/www/ fa17/classes/13-debugging/
21. AI 辅助根因排障:破案 vs. 排障 🔍 破案(侦查) • 分析线索:物证、指纹、证人陈述 • 推测动机:犯罪意图、作案方式 • 给出嫌疑犯:潜在的犯罪者 🧑💻‍ 排障(debug) • 分析线索:代码、日志、堆栈、反馈 • 推测动机:程序原意、执行偏差、异常 • 给出嫌疑犯:潜在的Bug引入者 共同点:逆向推理的认知活动
22. AI 辅助根因排障:Holmes 介绍 T 问题排障 Troubleshooting = O 可观测信息 Observability + D 日志、堆栈 静 运 行 静 态 信 息 Debuggability debugger 动 profiler Holmes 排障工具 Tombstone 可调试信息 Coredump Hprof/MemoryGraph UI视图 程 序 动 态 追 踪 JVM TI ebpf 远程切面
23. AI 辅助根因排障:Holmes UI 视图 截图 View Tree Touch Event Holmes UI 视图 逆向推理 还原点击
24. AI 辅助根因排障:Holmes UI 视图 ViewTree 元信息 Holmes UI视图 视图移除 Layout info ViewFlags RecreateDisplayList dispatchXXX remove Pressed Visibility res-id View remove text Fresco res Lottie res Background View Depth Touch Target Alpha Scroll info Provide API Activty/Fragment 元信息 Activity Recycle Fragment LifeCycle Bitmap double Recycle TouchEvent 元信息 Touch事件响应记录 Touch 轨迹记录
25. AI 辅助根因排障 ❓ 这么多信息,记不过来?
26. AI x 根因排障:如何实施 故障概览信息Agent 例:UI崩溃排障Agent 提示词(概括) 提示词(概括) 通过 MCP 工具,汇总排障信息 (排障需要的基础上下文汇总) 意图识别 Agent 1. 使用 MCP 工具 获取 UI 日志 2. 注意分析日志中的 UI 层次 3. 根据日志和代码给出问题修复 diff Keep 平台 MCP 获取崩溃&UI日志 产品 平台 版本 故障 类型 版本 类型 基准 版本 崩溃 堆栈 基于排障经验 规则匹配 空指针崩溃 Agent 读取相关代码 ReAct 修改建议 问题分析 生成报告 & diff 源码 MCP Holmes 视图 源码 MCP 基准分支 崩溃上下文代码 分析故障上下文 定位问题根因 堆栈 行类型 MR提交 Agent 问题分支 崩溃上下文代码 状态异常崩溃 Agent grep 查找 并发修改崩溃 Agent UI 崩溃 Agent 读目录 读文件 git blame MVPS 崩溃 Agent … Agent
27. 实践出真知 “Without the experience of actually doing it, you never get three dimensional.” 不实干,学到的永远只是皮毛。 来源:乔布斯 1992 年 MIT 演讲
28. AI x 根因排障:如何提升准确率 上下文信息不完备 (欠定) 模型输入 达成目标信息不足 目标过于抽象/太大 高熵/随机采样 输出:模糊/幻觉/不确 定解 注意力稀释/误导 输出:偏题/被误导的 解 低熵/逻辑推理 输出:确定性解 上下文噪声污染 低信噪比(超定) 模型输入 多职责/目标 无关信息过多 上下文信息完备 高信噪比(适定) 模型输入 单一职责 直接相关信息 Few-shot 量化标准
29. AI x 根因排障:效果展示 AI 助手意图识别 AI 问题排查建议 AI 问题修复自动提交
30. AI x 根因排障:性能分析利器 - 火焰图 基于采样类火焰图(Sample) Perf 资源:CPU/内存/IO 基于追踪类火焰图(Trace) Perfetto:atrace 应用事件 / ftrace 内核事件 *注:实际Perffetto也支持采样类数据,如heapprofd
31. AI x 根因排障:人工火焰图痛点 拿到火焰图文件 开始分析 寻找疑似问题 分析结束 代码优化 学习相关知识: Perfetto用法 是问 题? 业务逻辑了解 客户端底层知识 ... 否 反复确认分析 是 分析问题 分析⻔槛高 代码验证 效率低 容易遗漏 需求上线
32. AI x 根因排障:火焰图原理架构 关键思路 • 数据预处理分析 • 源码关联分析
33. AI x 火焰图:效果展示 典型性能问题 • 主线程耗时 • 频繁调用 • GC • 锁竞争
34. 实践:AI 加速应急处置 止损工具 | Ekko | 效果分析
35. AI 加速故障应急处置 案例:iOS 26 你的 property 崩了吗? 影响几十个旧App版本,如何快速止损 * 官方文档:https://developer.apple.com/documentation/xcode-release-notes/xcode-26-release-note
36. AI 加速故障应急处置 止损工具的痛点 变更回滚 商店更新 覆盖率低,用户流 失⻛险。 依赖归因成功率, 且外部变更变更不 可回滚,活动特性 发布类不可回滚。 核心:时效性要求高,不能依赖根因定位 根因修复 时效性差,需先定 位问题根因,发布 流程⻓,性能损耗。
37. AI 加速故障应急处置 Ekko :修改程序执行流 兜底前执行流: 兜底后执行流: … … … … … … 崩溃流程阻断 改变执行流 错误引入 💥 … … 全部 流程终止 … … Ekko: 让程序运行也能有R技能,时光倒流,恢复正常状态 跳 过 🧯
38. 故障应急体系建设 Ekko 崩溃阻断:覆盖所有崩溃类型 NSException C++ Exception Mach libobjc提供的 exception_preprocessor 主可执行文件的 personality routine 基于 task exception port 应答,请求 恢复崩溃线程的执行。 funcA funcA exception port funcB NSException funcB C++ Exception funcC preprocessor funcC __cxa_throw 异常预处理方法 App XNU 内核 __gxx_personality_v0 * 注意:iOS sinkhole异常陷阱机制
39. 故障应急体系建设 Ekko 崩溃恢复:类型无关通用性强 核心流程 异常发生之后,App 闪退之前,通过动态修改程序 执行流返回至上层函数后继续向下执行。 实现原理 Context (Callee-Saved Registers) Address (PC LR) 基础:stack unwind 基于寄存器存储映射关系重建 context fp unwind 地址恢复:计算并修改目标兜底函数的 PC LR 上下文重建:恢复兜底函数的 callee-saved registers 以及“伪造”正在等待 callee 的返回值 技术挑战 PAC签名;异步 stack unwind; 兼容 unwind info 缺失 计算跳转地址 PAC 地址签名 扩展:异步 unwind 扩展系统 stack unwind 终极:运行时解析 自研反汇编器,兼容 unwind info缺失场景
40. AI 加速故障应急处置:安全气垫发布 1.兜底决策 AI 加速配置决策 2.生成配置 3.1白名单 3.2审核 3.3灰度 AI 加速流水线发布 3.4全量 4.数据观测
41. AI 加速故障应急处置 案例:突发黑天鹅事件,原因竟是… ** ** ** ** ** ** ** ** ** ** *万级崩溃,肾上腺素飙升,问题迟迟得不到止损
42. AI x 应急处置:分析判断 收 变更归因 建 集 议 建 议 指挥人 建议 代码分析 集 收 Keep分析 负责人 集 收 收集 建议 变更归因 负责人 代码分析 负责人 收集 故障处置 Agent 收 议 建 建 议 xx归因 集 日志分析 负责人 变更归因 依赖人工驱动,易错易漏 xx分析 日志分析 AI 驱动
43. AI x 应急处置:Agent 流程编排 故障分析 意图识别 Message 故障分析概览 Agent 故障分析 Agent 业务维度特征 Agent 源码分析 Agent 根因结论生成 Agent 确认/取消 … 线上报警 Callback 故障止损 故障止损概览 Agent 气垫配置分析 Agent 气垫配置生成 Agent
44. AI x 应急处置:效果展示 故障触发 应急处置 Checklist 异常识别 根因推理 应急处置多维度信息诊断 排障建议 人机协同
45. 总结展望 Agent 开发 | 人机协同
46. AI x 性能稳定性:Agent 开发感悟 识别瓶颈 思维切换 Thinking in LLM • 概率自回归 vs. 图灵机 • 能力边界,擅⻓区、薄弱区、 瓶颈区;什么时候用模型、 什么时候用代码程序、什么 时候用工具 释放模型天花板 • • 提示词无法提升模型认知上 限(权重无变化),但是好 的提示词可以激发模型表现 模型推理深度有限,提前基 于专家知识做好步骤拆解 认识重要性 评测体系 = 上下文工程 • • 调试:提示词 vs. 调试程序 合理设计架构,降低Agent能 力回归评估成本(时间、钱)
47. AI 展望:回顾最初的焦虑 冷静:正确认识 AI,不神话 乐观:积极拥抱 AI,不错过浪潮 视频来源:Linus Torvalds, Creator of Linux & Git, in Conversation with Dirk Hohndel, Head of the Open Source Program Office, Verizon
48. AI x 性能稳定性展望:人机协同 人类弱化 人类强化 思考力 生产力释放 • • “体力型”排障 “死记硬背型”排障 • • • 辨别因果、验证结果 系统性思考、创造性实验 深度业务理解、战略决策 Human in/on the Loop,人类不可或缺 星辰大海,刚刚启航
49. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

trang chủ - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-06 12:42
浙ICP备14020137号-1 $bản đồ khách truy cập$