AlipayMiniUse - 支付宝小程序 Agentic AI 基建探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. AlipayMiniUse:支付宝小程序
Agentic AI 基建探索
马航(吭头)
蚂蚁终端体验科技大会
2. AI Agents 的趋势:开始连接生活与工作
✈ 查询机票
📈
成报表
📄 总结
档
💻 编写代码
……
AI Agent
3. AI Agents 的趋势:开始连接生活与工作 - 依赖工具集
4. GUI Agents:像人类一样操作设备
• Anthropic Computer Use
• https://www.anthropic.com/news/3-5-
models-and-computer-use
• ChatGPT Atlas
• https://chatgpt.com/atlas/
• Gemini 2.5 Computer Use
• https://ai.google.dev/gemini-api/docs/
computer-use
• Browser Use
• https://browser-use.com/
5. GUI Agents:像人类一样操作设备
获取截图
MCP
读取系统状态
点击
Claude Skills
输
操作浏览器标签
搜索 API
ReAct Agent:
观察 -> 行动(调用工具) -> 观察 -> … -> 完成任务
工具调用协议
工具集
6. 感知和操作 付宝 程序?
7. 工具在 GUI Agent AI 中的角色
操作执
点击输
滚动…
8. • AI Work ow
• AI Agent
• Human
• E2E Script
• Other
工具在 GUI Agent AI 中的角色
一个“大脑”
上下
感知:
截图图
应
信息
操作执
DOM信息点击输
…滚动…
9. GUI 状态感知
一个“大脑”
上下
感知:
截图图
应
信息
操作执
DOM信息点击输
…滚动…
10. GUI 状态感知 - 截图
👀🧠:这是
我要在他
个输
输
框,
字
优势:
- 简单直接
- 通 性强
劣势:
- 单个视觉 UI 可能存在误导
- 视图快速改变场景不适
👨:傻了吧,这是个按钮
11. GUI 状态感知 - DOM Downsampling(Grounding)
20K tokens
<div class=“action-bar”>
<div class=‘action-item‘>
<div class=‘clickable’>
<a>查看产品</a>
</div>
</div>
<div>
原始 DOM:
- 数据量
- 操作含义模糊
- 冗余信息多
2K tokens
<button onClick=‘goToProduct’ >
查看产品
</button>
DOM Grounding 后:
- 仅保留可操作元素
- input/button/scroll
- 展示更多信息
12. GUI 状态感知 - 框架运行信息
依赖对运行环境和框架的掌控,提供更多的感知描述
navigationStack: [
{
name: ' 付宝会员',
page: 'pages/member/index',
},
{
name: '淘宝闪购',
page: 'pages/index/index',
},
{
name: '淘宝闪购',
page: 'pages/index/search',
}
]
小程序的运行栈信息
<input
onValueChange=‘showAutoComplete’
onEnter=‘doSearch’
placeHolder=‘搜索’
/>
<button onClick=‘doSearch’ >
搜索
</button>
控件回调的绑定
<add-to-cart-button>
<button>
添加到购物车
</button>
</add-to-cart-button>
自定义组件信息
13. 操作执行
一个“大脑”
上下
截图图
应
操作执
DOM信息点击输
…滚动…
14. 操作执行
By_ID
By_COORDINATE
BY_QUERY_SELECTOR
查找元素
CLICK
INPUT
SCROLL
执
动作
15. 操作执行 - 查找元素 - 上下文一致性
GUI AGENT 上下文不一致问题:元素位置改变
处理方式:
1. 返回失败
2. 上下文快照
CLICK_BY_COORDINATE(400,100)
16. 操作执行 - 什么是操作完成?
点击操作
操作前
几秒后
发送 Http 请求
展示 Loading
轻量更新 UI
页面状态稳定
可以执行下一个操作
17. 操作执行 - 什么是操作完成?
点击操作
操作前
几秒后
发送 Http 请求
展示 Loading
轻量更新 UI
页面状态稳定
可以执行下一个操作
18. 1. 提供 WAIT_FOR_IDLE
1. Page Navigation 完成
2. Page Data 稳定
3. 不存在 Loading 等元素
4. 染色的 Promise 完成
操作执行 - 什么是操作完成?
点击操作
操作前
几秒后
发送 Http 请求
展示 Loading
轻量更新 UI
页面状态稳定
操作完成
19. 操作执行 - 操作产生的变化(副作用)
操作的结果包含
1. 操作本身是否成功完成(Event 派发)
2. 产生的 UI 变化(元素出现/消失)
3. 产生的 Http 请求
4. 产生的 Toast 提示
5. 产生的页面跳转
Element Appeared:
<button class=“cart-badge” >2</button>
Element Disappeared:
<button class=“cart-badge” >1</button>
⬆ UI 变化: 购物车 +1
在长上下文中容易被忽略
20. 操作安全性
UI:搜索商品
实际行为:⚠转账
🎣 钓(AI)鱼应用 ⚠
21. 操作安全性
点击元素
UI:搜索商品
实际行为:⚠转账
执 客户端API
“tradePay”
命中确认切
🎣 钓(AI)鱼应用 ⚠
执行确认切面
继续执
安全审查
户确认
22. 感知与执行结合
上下
感知:
截图图
应
信息
操作执
DOM信息点击输
…滚动…
23. 组件元素的封装
识别复杂元素,将其作为功能元素封装
简化 AI 输出的操作指令
24. GUI 到 API - 框架与封装
App.json
在
付宝
程序
注册 MCP 服务器
{
"mcpServer": {
"description": "积分查询 程序提供查询和使
积分的功能",
"tools": {
"queryPoints": {
…
}
}
}
}
各类
page/index/index.js
Page({
queryPoints(payload: {params, context}) {
payload.context.response({
basePoint: 111,
expiredPoint: 200
})}
})
MCP
定义 MCP
具
具实现
25. GUI 到 API - 框架与封装
业务 MCP
框架感知/执行工具
容器感知/执行工具
系统感知/执行工具
26. Thanks