基于风险驱动的交付模式转型探索与实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 基于风险驱动的交付模式转型探索与实践 2023.03 / 黄佳鑫

3. 分享纲要 1、风险驱动交付模式源起--百度交付现状&挑战&破局 2、风险驱动交付模式构建技术 2.1、模式介绍--何为风险驱动交付 2.2、模式建设--质量风险决策系统 2.3、模式应用--无人值守建设和落地 3、未来展望

4. 风险驱动源起｜百度交付现状  随着工程能力的不断提升，交付模式逐步完成从纯手工测试自动化测试持续集成持续发布的演变。  通过将自动化测试工具集成到流水线中，质效工作逐步左移，研发可以通过流水线完成测试、上线工作。 RB 分支开发、主干合入、分支发布交付模式从主干拉分支发布 M1 M2 从主干拉分支开发 Approve 手动合入主干 Branch 主干测试实时和绿灯通过 QA 评估 daily执行分支测试绿灯通过 QA 评估本地开发执行约花费1小时       集群编译：15分钟静态代码检查：20分钟单元测试：10分钟 Diff测试：50分钟性能测试：60分钟功能测试： 40分钟      执行约花费1小时集群编译：15分钟静态代码检查：20分钟 Diff测试：50分钟性能测试：60分钟功能测试：40分钟发布发布测试绿灯通过 QA 评估 Master M3 执行约花费5小时  集群编译：15分钟  性能测试：5个小时问题 • 月需求万级，关联bug占比20%；构建百万级，关联bug占比1%，较多冗余执行 • 3阶段执行耗时小时级，但交付周期天级粒度，人工评估和扭转拉长周期 • 线上百级个bug漏出，测试和准出能力不足

5. 风险驱动源起｜百度交付挑战&破局 RD 和 QA 质效心声挑战非所有项目都有风险，80%+无关联bug和线上问题现状剖析破局思路测试本质是减少bug发生的可能性(风险)和产生的影响以风险驱动，测该测的，评风险评得准，达到质效最优风险驱动不是所有测试任务都能揭错，固化冗余测试占比高测试人员也有误判的可能，漏测一直存在针对性测试精准极致评估质效

6. 风险驱动交付—模式介绍｜何为风险驱动

7. 风险驱动交付—模式建设｜质量风险决策系统 (核心风险识别、风险控制和风险决策 ) 构建质量决策系统，机器自动识别风险，执行该执行的测试活动，自动决策风险，自动流程流转 ①-风险识别项目风险画像人员风险画像代码动静态风险画像动态风险点识别 ②-风险控制功能测试稳定性测试性能测试 ③-风险决策风险点&概率风险可视化&闭环风险可视化报告业务影响风险数据风险策略测试控制分级发布灰度报告反馈意见监控风险闭环原始代码 AST 语义分析稳定性决策结论影响评估结论，流转&推荐风险追踪Cover bug 反馈反馈优化路径提取模型上线性能深度算法识别人工模型迭代特征提取

8. 模式建设—风险识别｜建立识别能力，打通数据血缘关系，量化风险开发时长采集什么数据？如何采集数据？怎么串联数据？变更次数模块是否数联调项目信息千行bug率线下bug数项目熟悉度提测打回数线上bug数 pipelinetid jobid 测试信息代码信息变更 Bug信息 commitid 高危片段人员信息高危场景卡片id 提测单id 影响充分度数据执行数据杂更用户问题拦截业务历史用户密度密度能力指标 bug 路径

9. 模式建设—风险控制｜针对识别风险，给出执行建议和充分度评估执行哪些测试？如何执行测试？测试质量如何？自动生成充分度评估精准测试智能构建

10. 模式建设—风险控制之智能构建｜精简、自动标注和自愈流水线任务或阶段智能构建决定应该执行哪些测试，节省流水线构建时间从几个场景说起场景一、孤岛函数，diff代码无法进入 function A(){ if gflag3{ B() } } function B(){ if gflag2{ if gflag1{ code diff; }}} 1、函数调用关系场景二、简单改动，local和trunk都跑 A  B # 原始代码 if (NULL == _p_adx_1 || NULL == _p_adx_2) { return false; } 2、开关依赖关系 gflag3  gflag2  gflag1 3、开关链路状态 4、变更所属开关 false true # 变更代码 if (NULL == _p_adx_1 || NULL == _p_adx_2) { ADX_WARNING("_p_adx_1 or _p_adx_2 is NULL"); return false; } true code diff  gflag1 问题分析  问题1: 简单修改，孤岛，有必要跑那么多测试？特别是高资源和时间消耗的性能任务解决方案跑需要跑的，跟进需跟进的失败  问题2: 同一次提交，local和trunk的任务都一样，是否多余  问题3: 任务偶发抖动失败，定位原因耗时，能否自动重跑，自动定位原因跳过落地效果构建策略精简策略自动标注策略取消结果复用自愈策略策略效果精简任务量 6w+/Q 自愈任务量 8k+/Q

11. 模式建设—风险控制之精准测试｜以更少的用例，达到更多的问题召回精准测试决定应该如何进行测试，执行哪些用例。 • 前端APP单产品回归用例1500+，总量9w+，单次回归约3天，可接受时间1天内 • 后端系统线上引流百万级，全系统任务最多发送十万级，子系统测试可接受2万用例与代码关系建立代码库基于相关性用例推荐文件风险特征采集聚合分类模型插桩编译用例回放分析用例覆盖信息用例与分支关系用例与函数关系 Diff 信息文件级 bug模型产出diff相关的风险文件用例排序策略效果落地业务：20+ 手工用例选择压缩率：80% 回归耗时下降:56% 落地模块：100+ 压缩率：70% 黑名单过滤用例与文件关系落地效果基于风险用例推荐最大覆盖用例公共方法过滤冗余 or 缺失？采用相关性用例推荐系统流量选择测试耗时压缩：50% 召回bug：200+

12. 模式建设—风险决策｜思路介绍决策方案场景借鉴身体体检基于启示，方案基于规则+模型+影响进行量化决策不同群体，不同体检单类别内科实验检查体检项心率、脾胃等甲功、肾功等规则决策待就诊待复查待关注识别风险，并控制，如何给出决策结论？披露风险点给出测试建议规则模型给出风险发生概率偏专家经验，规则化决策特征贡献分评分卡银行风控放贷 200 模型、年龄 300 信用分收入信用分 650 策略不授信可授信授额度决策专家经验+风控模型的组合决策影响获取数据风控放贷黑名单规则决策监测标注 Pv、收入等特征工程闭环模型上线模型开发检验评估

13. 模式建设—风险决策之风险概率模型｜从历史数据自动学习“经验”，预测未来模型选型是否有风险，风险概率大小本质上是一个二分类算法，具体选择哪一种？模型特征 实验一：以业务测试数据验证效果风险引入风险移除项目风险指标人员风险指标测试充分度监控完备度代码风险指标 AUC衡量分类好坏。TOP-5算法是AdaBoost、NB、LR、MLP和XGBoost，逻辑回归(LR)模型效果前列影响风险指标 实验二：模型需要可解释逻辑回归是找到从特征空间到输出空间最优线性映射函数，形如： z = � 0 + � 1 ∗ � 1 + � 2 ∗ � 2 + � 3 ∗ � 3 + � 4 ∗ � 4 +b 模型效果正确率/错误率 LR契合人工判断的方式，可解释性较好，而其余4个都不行 实验三：质量数据量较少速度要求高，模型不能太复杂 LR属于简单模型快速，不容易出现过拟合，Boost和MLP较复杂，对数据需求高综合上述3点，选择逻辑回归作为分类模型准确率/召回率/F1测度 ROC曲线/AUC面积

14. 模式建设—风险决策之决策结论｜量化决策，助力自动流程流转测试本质是规避风险，减少风险发生概率和发生问题造成的危害，而风险矩阵是一种综合两者的风险评估分析方法基于风险矩阵，进行决策 Ⅰ：伤害事件发生可能性极大，任何情况下都会重复出现 拦截 Ⅱ：经常发生伤害事件。 拦截 Ⅲ：有一定的伤害事件发生可能性，不属于小概率事件。 拦截 Ⅳ：有一定的伤害事件发生可能性，属于小概率事件。 视情况 Ⅴ：会发生少数伤害事件，但可能性极小。 通过，无人值守 Ⅵ：不会发生，但在极少数特定情况下可能发生问题发生产生的危害 通过，无人值守

15. 模式建设—风险报告举例

16. 模式建设—架构图｜打造通用工程和策略，管控流程和数字化度量，低成本赋能

17. 风险驱动交付—模式应用｜无人值守建设(完备测试、稳定构建和精确评估)  Diff测试：结果复用 1  功能测试：结果复用  性能测试：结果复用发布测试 RB 从主干拉分支发布 M1 主干测试 M2 从主干拉分支开发低风险自动分支测试 Branch 本地开发绿灯通过风险决策 3  性能测试：跳过  Diff测试：30分钟  功能测试：20分钟完备测试能力绿灯通过风险评估智能构建 1 风险决策 3 高风险流程拦截 QA补充测试低风险 QA确认通过手动流程流转精准测试 2 稳定构建能力全流程无人(QA)值守风险决策 3 Master M3 绿灯通过分支合入主干发布无QA跟进，自动流程流转精确评估能力

18. 落地效果｜带来测试思维的变革，质量和效能提升明显 01 低风险项目低成本高效交付 02 降低冗余测试任务/用例 03 量化风险减少bug漏出 Q共识别1.1w+可自测项 Q精简任务6w+，约减少 Q共识别3k+不可自测目，自测占比60%；无 2.88wh执行；压缩用例项目，共拦截500+bug 人值守项目占比达25% 70%+，测试执行时长降低50%+

19. 总结&展望｜由机器代替人工自动、深度决策，实现风险驱动交付测试行为推荐/预警需求准出集成准出灰度准出分级准出求请请求决策通过返回建风险议和分和推荐点， QA 自动/半自动测试执行，充分度评估分阶段需求发起质量风险决策系统 1、测试前(风险识别): 识别风险，推荐/预警活动和用例 2、测试中(风险控制): 定向风险执行，前置拦截 3、测试后(风险决策): 决策风险，给出建议，自动扭转试测、请动申活试例测用回试返测低风险准出风险决策高风险决策建议流程拦截 RD修BUG 测试分配QA跟进补充测试/用例下阶段

20.