Multi Agent 驱动的 UI 自动化测试新范式

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #AI Agent

1. Multi Agent 驱动的 UI 自动化测试新范式繁珏

2. 目录 • 测试痛点 • AI新机遇 • 建设目标 • 解决方案 • 总结展望 2

3. 测试痛点学习门槛高编写成本高维护成本高控件识别难 • 需要掌握复杂的自 • 编写测试用例需要 • 页面布局或功能更 • 面对动态加载或复动化工具和编程语言，如Appium、 Playwright等深入了解业务流程新后，自动化测试和应用结构脚本需频繁修改杂的UI组件时，识别和操作控件具有 • 自动化测试工具环境搭建复杂 • 自动化用例开发周 • 需要投入大量时间期长，无法快速覆盖新功能和人力资源进行脚本维护挑战性 • 易出现识别错误导致测试结果不准确 3

4. AI 新机遇 – 人机协同人类与AI协同的三种模式包括人工为主模式、副驾驶模式（Copilot）和 AI 自主模式，相较于前两种模式， AI 自主模式更为高效，或将成为未来人机协同的主要模式。人工为主模式 AI 人类其中某几个任务AI提供信息或建议人类结束工作 AI完成初稿，人工修改调整人类结束工作 AI全权代理：任务拆解，工具选择等 AI 自主结束工作人设定目标 Copilot模式人类 AI 人设定目标 AI 自主模式人类 AI 人设定目标 4

5. AI 新机遇 – Agent Agent Multi Agent协同能够感知环境、做出决策并采取行动以实现特定目标的计算系统。处理更复杂的任务，中心化结构举例用户请求用户请求 API调动目标拆解思维链任务规划工具使用 Agent 代码执行管理者 Agent 工具库自我思考 …… 记忆 Agent 短记忆长期记忆当前对话上下文持久化存储的知识 Agent Agent 模拟人类工作流程：可以模拟人类的分工协作方式，将各种任务的标准操作流程定义为AI Agent的工作规范。 5

6. AI 新机遇 – Multi Agent React 设计模式举例 React 解释案例：点外卖问题：我想点一份午餐外卖，请帮我找到附近评分高且送达时间在30分钟内的餐厅选择。思考 1：需要搜索附近餐厅并筛选高评分、快速配送的选项。思考智能体操作 1：搜索[附近餐厅外卖] 观察 1：找到五家餐厅："味之源中餐厅"、"迅捷披萨"、"健康沙拉吧"、"墨西哥卷饼屋"和"日式料理店"。推理拆解任务，确定解决问题所需的信息思考 2：需查看评分和配送时间。和步骤；操作 2：查询[餐厅评分和送达时间] 观察 2：味之源(4.6星)：35-45分钟，健康沙拉吧(4.7星)：20-30分钟，其他评分较低思考 3：只有健康沙拉吧满足条件，查看菜单和评价。操作 3：搜索[健康沙拉吧菜单和评价] 观察 3：提供多种沙拉，午餐套餐58元含主沙拉、小食和饮料。最近评价多为5星，称赞食材新鲜、送达准时。观察智能体行动智能体观察行动结果是否有采取相应的措施或执效，是否接近了问题的答案。行特定的任务，调用回答：推荐"健康沙拉吧"，评分4.7/5星，送达时间20-30分钟。他们提供58元午餐套餐，顾客评价积极，特别肯定食材新鲜度和送达时效。工具执行具体操作； React 优势和局限性分析一、优势：①灵活性：基于实时观察动态调整决策路径，适应意外情况；②知识获取：通过工具迭代获取外部信循环流程，直到任务结束或达到最大循环次数息，解决复杂问题；③透明度：思考步骤记录推理过程，便于调试二、局限性：①循环风险：可能陷入无效步骤循环，难以自主跳出；②资源消耗：多轮LLM调用增加延迟和成本； 6

7. AI 新机遇 – Multi Agent Plan-and-Execute 设计模式举例 Plan-and-Execute 案例：点外卖问题：我想点一份午餐外卖，请帮我找到附近评分高且送达时间在30分钟内的餐厅选择。一、Plan阶段，智能体首先制定完整计划： ①搜索附近提供外卖服务的餐厅；②筛选出评分4.5星以上的高评价餐厅；③查看符合条件餐厅的菜单和用户评价；④根据综合信息选出最佳推荐二、Execute阶段： ①搜索附近餐厅；②筛选高评分餐厅；③检查送达时间；④查看菜单和评价三、 Replan阶段（检测到计划无法继续执行，智能体重新规划）： ①放宽条件，考虑评分4.0以上且送达时间在35分钟内的餐厅 ②重新筛选并评估可行选项图：LangGraph 官方四、继续执行：放宽条件搜索，最终推荐完成任务 1、Plan：做规划，把复杂问题拆成一系列的子任务。 2、Execute：按照子任务列表，逐个执行。 Plan-and-Execute 优势和局限性分析 3、Replan：重新制定计划，一方面会输出反馈给用户，另一方面会更一、优势：①明确区分规划与执行阶段，先全局规划再逐步执行，提供清晰路线图指导全过程，避免陷入局部最新任务清单；优；②Replan机制允许在计划遇阻时动态调整，提高任务完成率；③减少模型调用: 相比每步思考的方法，可能降低总体模型调用次数二、局限性：①初始计划质量决定整体执行效果，计划欠佳将影响全局；②频繁的计划失败与重规划会增加延迟和资源消耗；③何时需要完全重规划、何时只需小调整的界限不明确 7

8. AI 新机遇 – UI自动化测试新范式通过 Multi Agent 解决UI自动化测试问题，让“一句话自然语言描述，自动生成UI自动化测试用例”变成可能。新范式思路如下： Loop到任务完成测试任务分析智能体环境感知上下文获取指令预测智能体指令执行智能体观察反思理解用例生成诉求页面、控件信息历史步骤上下文信息自然语言替代传统代码指令操作手机、WEB 观察执行结果经验更新（将有用的过程信息沉淀为长期记忆）任务结束后，对过程信息进行综合分析和总结。这些总结将被有效地沉淀下来，以供后续任务使用。 8

9. 建设目标基于 Multi Agent + 自动化测试基建，构建 UI 自动化测试新范式，实现“ 一句自然语言描述，即可自动生成、执行并断言 UI 自动化测试用例 ”。 9

10. 解决方案 – Multi Agent 协同是知识库修正用例按步骤执行固定用例自愈智能体执行失败是否命中已沉淀的自动化用例任务分析智能体在美团外卖APP 买个猪脚饭 Loop到任务完成否初始化环境感知上下文获取预测下一步智能体指令执行智能体评价反思智能体点击搜索框打开APP 验证执行结果一句话任务 1. 首先打开美团外卖APP 2. 搜索猪脚饭 - 点击首页顶部的搜索框 - 输分配设备 DOM获取最终任务入"猪脚饭"关键词 - 点击搜索按钮 3. 选择合适的商家 - 查看商家列表 4. 选择猪脚饭 - 在菜品列表中找到猪脚饭 - 点击"+"号将其加入购物车 5. 提交订单 - 点击页面底部 “去结算” 6. 完成支付 - 选择支付方式（如微信支付、支付宝等）应用安装 OCR获取图像获取历史步骤 UI关键信息描述 action: [ { "name": "MobileTap", "arguments": { "x": 286, "y": 235, } } ] 打开网页点击文字输入执行失败自愈智能体 …... 经验更新（将有用的过程信息沉淀为长期记忆知识库）任务结束后，对过程信息进行综合分析和总结。这些总结将被有效地沉淀下来，以供后续任务使用。 10

11. 解决方案 – 环境感知（记录上下文信息）环境感知：像一个记录员一样，自动采集环境交互信息（包括页面状态、UI组件结构、操作历史等），结构化上下文，实现多智能体系统中的信息共享与协同决策，提升智能体对环境理解的能力和任务的执行效率。环境感知举例：感知每一步的页面组件结构信息环境感知举例：感知执行过程相比传统纯DOM树、OCR解决方案，多模态大模型的自动记录UI自动化的指令执行过程、验证结果等加持下能更精准的识别元素 { OCR DOM树（数据清洗）多模态 ] } "context": [ { "index": 1, "action": "打开外卖APP", "test_result": "成功" }, { "index": 2, "action": "点击搜索框", "test_result": "成功" }, { "index": 3, "action": "输入搜索关键词'披萨'", "test_result": "成功" }, { "index": 4, "action": "从搜索结果中选择餐厅'意式经典披萨'", "test_result": "成功" }, { "index": 5, "action": "将'夏威夷披萨'加入购物车", "test_result": "成功" }, …… Agen t 作为参数传递给大模型，大模型利用上下文信息后可以更加准确的决策被环境感知记录到的过程信息举例在美团外卖APP上点一个汉堡 11

12. 解决方案 – 预测下一步大模型Prompt 你是一名经验丰富的UI自动化测试工程师，为了完成最终目标，请帮我预测出下一步动作，必须返回JSON，不要包含多余信息，避免JSON格式错误。当任务完成时，停止任务。环境感知（上下文获取） { } 页面信息 "context": [ { "index": 1, "action": "打开外卖APP", "test_result": "成功" }, { "index": 2, "action": "点击搜索框", "test_result": "成功" }, { "index": 3, "action": "输入搜索关键词'披萨'", "test_result": "成功" }, { "index": 4, "action": "从搜索结果中选择'意式经典披萨'", "test_result": "成功" } ] 执行过程指令知识库 #### 1. 输入文本如果预测结果为输入文本，输入的指令如下： ```json { "actions": [ { "instructionName": "MobileSendKeys", "arguments": { "selector": "<xpath_input>", "keyword": "<inputText>", } } ], } ``` - 其中x、y为输入框位置，selector为输入框的 xpath路径，参考格式为：//*[@resource- id='com.ss.android.ugc.aweme:id/et_search_ kw' and @class='android.widget.EditText' and @focusable='true' and @enabled='true']，keyword为要输入的文本。预测出下一步指令（单步或多步）：点击搜索框 [ { ] } [ { "name": "MobileTap", "arguments": { "x": 286, "y": 235, } }, { "name": "MobileTap", "arguments": { "x": 286, "y": 235, } "name": "MobileTap", "arguments": { "x": 286, "y": 235, } } ] 单步多步最终任务：买一个汉堡 12

13. 解决方案 – 评价反思 + 自愈自愈：执行失败的步骤进行自愈，减少了用例维护成本，传统的UI自动化测试脚本在应用程序的UI发生变化时通常需要手动更新。AI自愈能力能够自动识别和适应这些变化，从而减少了脚本维护的工作量和成本。自愈 Prompt 作为UI自动化测试自愈Agent，你的核心职责是确保测试脚本在面对UI变化时保持稳定运行。 ## 主要职责 1. **元素定位恢复** - 当定位器(XPath, CSS选择器等)失效时，通过多种替代策略重新识别元素 - 利用相邻元素、文本内容、相对位置等上下文信息进行智能匹配 2. **测试脚本修复**：自动更新测试脚本中的定位器，调整等待时间和交互逻辑以适应新的UI响应特性 ……. 请帮我预测出下一步动作，必须返回JSON，不要包含多余信息，避免JSON格式错误。当任务完成时，停止任务。执行用例点击搜索按钮评价反思智能体由于需求变更，搜索按钮的控件变更了，从文字变自愈智能体当前页面信息 [ { 成了icon，导致点击操作失败。要完成的目标 }, { 历史执行步骤指令知识库 "name": "MobileTap", "arguments": { "x": 286, "y": 235, } 执行新指令点击搜索按钮 "name": "MobileTap", "arguments": { "x": 286, "y": 235, } } ] 13

14. 解决方案 – 经验更新（过程信息沉淀长期记忆）为什么要进行经验更新并有效沉淀执行过程？ 1. 提升效率：通过优化执行流程，将处理时间从原来的10秒以上缩短至2秒以内，大幅提高工作效率。 2. 节约成本：减少对模型的依赖，从而有效降低成本，实现资源的高效利用。知识沉淀更新过程（长期记忆）获取过程信息 { "context": [ { "index": 1, "action": "打开外卖APP", "test_result": "成功" }, { "index": 2, "action": "点击搜索框", "test_result": "成功" }, …… ] } 信息有效性分析知识沉淀 1、分析每一步骤结果 1、转化为可执行 2、排除执行错误的步骤的自动化脚本 3、进行信息重组 2、持久化存储任务执行命中长期记忆 UI 自动化测试脚本帮我买一个外卖分析知识库（命中长期记忆） Automan 任务分析执行自动化脚本自愈结束 14

15. 解决方案 – 整体架构手机 UI 自动化测试智能应用智能应用任务调度多智能体浏览器 UI 自动化测试智能应用人工任务任务分析智能体定时任务环境初始化页面识别智能体接口调用环境感知智能体预测下一步智能体浏览器指令手机指令基础工具设备占用点击元素滑动打开网页点击元素滑动输入文本安装应用卸载应用输入文本等待网页加载刷新网页截屏获取DOM树 …… 截屏获取DOM树 …… 大模型长期记忆设备模拟器大模型基础服务指令执行引擎手机浏览器用例库业务库 15

16. 总结展望 – 能力总结 Automan（自然语言）传统 UI 自动化测试（自动化脚本）手工测试（测试人员）用例新建成本低（自我学习、预测分析、智能生成、自愈）高（工具、环境、脚本/模型、录制开发) 高（需手动创建用例）用例维护成本低（自我学习、预测分析、智能生成、自愈）高（UI变化需要人工修改脚本、重新录制）高（需手动更新用例）较快快慢高高一般（易受人为因素影响）广泛，可并行执行广泛，可并行执行有限，耗时重复性任务高效，精确高效，精确枯燥，效率低，易出错探索性测试强（自我学习、预测分析、智能生成、自愈）较弱强项，依赖直觉和经验低 (执行成本低) 低 (执行成本低) 高 (重复执行人力成本高) 特征速度一致性覆盖广度长期运行成本 16

17. 总结展望 – 未来展望自动构建业务知识库业务知识、测试用例、 UI组件信息、页面信息全自主自动化测试用例智能修复根据PRD、历史用例库自动自动检测业务知识变化，自生成准确且完备的UI自动化动修复测试用例测试用例测试大模型训练基于业务知识进行训练，提升用例生成速度和准确度 17

18.

19. 招聘：测试开发岗位邮箱：caimanling@meituan.com 更多技术干货欢迎关注“美团技术团队”