AlipayMiniUse - 支付宝小程序 Agentic AI 基建探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AlipayMiniUse:支付宝小程序 Agentic AI 基建探索 马航(吭头) 蚂蚁终端体验科技大会
2. AI Agents 的趋势:开始连接生活与工作 ✈ 查询机票 📈 成报表 📄 总结 档 💻 编写代码 …… AI Agent
3. AI Agents 的趋势:开始连接生活与工作 - 依赖工具集
4. GUI Agents:像人类一样操作设备 • Anthropic Computer Use • https://www.anthropic.com/news/3-5- models-and-computer-use • ChatGPT Atlas • https://chatgpt.com/atlas/ • Gemini 2.5 Computer Use • https://ai.google.dev/gemini-api/docs/ computer-use • Browser Use • https://browser-use.com/
5. GUI Agents:像人类一样操作设备 获取截图 MCP 读取系统状态 点击 Claude Skills 输 操作浏览器标签 搜索 API ReAct Agent: 观察 -> 行动(调用工具) -> 观察 -> … -> 完成任务 工具调用协议 工具集
6. 感知和操作 付宝 程序?
7. 工具在 GUI Agent AI 中的角色 操作执 点击输 滚动…
8. • AI Work ow • AI Agent • Human • E2E Script • Other 工具在 GUI Agent AI 中的角色 一个“大脑” 上下 感知: 截图图 应 信息 操作执 DOM信息点击输 …滚动…
9. GUI 状态感知 一个“大脑” 上下 感知: 截图图 应 信息 操作执 DOM信息点击输 …滚动…
10. GUI 状态感知 - 截图 👀🧠:这是 我要在他 个输 输 框, 字 优势: - 简单直接 - 通 性强 劣势: - 单个视觉 UI 可能存在误导 - 视图快速改变场景不适 👨:傻了吧,这是个按钮
11. GUI 状态感知 - DOM Downsampling(Grounding) 20K tokens <div class=“action-bar”> <div class=‘action-item‘> <div class=‘clickable’> <a>查看产品</a> </div> </div> <div> 原始 DOM: - 数据量 - 操作含义模糊 - 冗余信息多 2K tokens <button onClick=‘goToProduct’ > 查看产品 </button> DOM Grounding 后: - 仅保留可操作元素 - input/button/scroll - 展示更多信息
12. GUI 状态感知 - 框架运行信息 依赖对运行环境和框架的掌控,提供更多的感知描述 navigationStack: [ { name: ' 付宝会员', page: 'pages/member/index', }, { name: '淘宝闪购', page: 'pages/index/index', }, { name: '淘宝闪购', page: 'pages/index/search', } ] 小程序的运行栈信息 <input onValueChange=‘showAutoComplete’ onEnter=‘doSearch’ placeHolder=‘搜索’ /> <button onClick=‘doSearch’ > 搜索 </button> 控件回调的绑定 <add-to-cart-button> <button> 添加到购物车 </button> </add-to-cart-button> 自定义组件信息
13. 操作执行 一个“大脑” 上下 截图图 应 操作执 DOM信息点击输 …滚动…
14. 操作执行 By_ID By_COORDINATE BY_QUERY_SELECTOR 查找元素 CLICK INPUT SCROLL 执 动作
15. 操作执行 - 查找元素 - 上下文一致性 GUI AGENT 上下文不一致问题:元素位置改变 处理方式: 1. 返回失败 2. 上下文快照 CLICK_BY_COORDINATE(400,100)
16. 操作执行 - 什么是操作完成? 点击操作 操作前 几秒后 发送 Http 请求 展示 Loading 轻量更新 UI 页面状态稳定 可以执行下一个操作
17. 操作执行 - 什么是操作完成? 点击操作 操作前 几秒后 发送 Http 请求 展示 Loading 轻量更新 UI 页面状态稳定 可以执行下一个操作
18. 1. 提供 WAIT_FOR_IDLE 1. Page Navigation 完成 2. Page Data 稳定 3. 不存在 Loading 等元素 4. 染色的 Promise 完成 操作执行 - 什么是操作完成? 点击操作 操作前 几秒后 发送 Http 请求 展示 Loading 轻量更新 UI 页面状态稳定 操作完成
19. 操作执行 - 操作产生的变化(副作用) 操作的结果包含 1. 操作本身是否成功完成(Event 派发) 2. 产生的 UI 变化(元素出现/消失) 3. 产生的 Http 请求 4. 产生的 Toast 提示 5. 产生的页面跳转 Element Appeared: <button class=“cart-badge” >2</button> Element Disappeared: <button class=“cart-badge” >1</button> ⬆ UI 变化: 购物车 +1 在长上下文中容易被忽略
20. 操作安全性 UI:搜索商品 实际行为:⚠转账 🎣 钓(AI)鱼应用 ⚠
21. 操作安全性 点击元素 UI:搜索商品 实际行为:⚠转账 执 客户端API “tradePay” 命中确认切 🎣 钓(AI)鱼应用 ⚠ 执行确认切面 继续执 安全审查 户确认
22. 感知与执行结合 上下 感知: 截图图 应 信息 操作执 DOM信息点击输 …滚动…
23. 组件元素的封装 识别复杂元素,将其作为功能元素封装 简化 AI 输出的操作指令
24. GUI 到 API - 框架与封装 App.json 在 付宝 程序 注册 MCP 服务器 { "mcpServer": { "description": "积分查询 程序提供查询和使 积分的功能", "tools": { "queryPoints": { … } } } } 各类 page/index/index.js Page({ queryPoints(payload: {params, context}) { payload.context.response({ basePoint: 111, expiredPoint: 200 })} }) MCP 定义 MCP 具 具实现
25. GUI 到 API - 框架与封装 业务 MCP 框架感知/执行工具 容器感知/执行工具 系统感知/执行工具
26. Thanks

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-14 06:41
浙ICP备14020137号-1 $访客地图$