通义多模态、多端 GUI 智能体 Mobile-Agent
如果无法正常显示,请先停止浏览器的去广告插件。
相关话题:
#AI Agent
1. 通义多模态、多端GUI智
能体Mobile-Agent
徐海洋
2. 目录
01 大模型智能体背景
02 多模态多端智能体Mobile - Agent
03 Foundation Agent for GUI
3.
4. 01
大模型智能体背景
5. 大模型智能体系统
在人工智能领域,AI智能体指可以观察周遭 环境 并作出 行动 以达致 目标 的 自主 实体
6. 大模型智能体的优势
OpenAI Five
LLM Agent with ChatGPT
传统基于RL的智能体的局限性
数据采样专有环境和低效
面向特定任务
稀疏奖励和长时段问题
大模型智能体的优势
大模型智能体的优势
丰富的世界知识 推理/规划能力
工具使用
(检索、code等) In-context Learning
7. 近期两类AI Agent 应用
Action Agent
(GUI Agent) Information Agent
(DeepResearch)
作用 [硬]“眼睛”&“手”
环境感知和行动执行 [软]“大脑”
思考、规划和综合分析
适用场景 [自动化]操作密集型
办公、生活操作任务 [智能化]知识密集型
办公Search创作场景
示例 Operator、Apple Intelligence、
Claude、Mobile-Agent Deep Research
(OpenAI、谷歌、Qwen)
ChatGPT-Agent、Manus
8. GUI 智能体发展迅速
围绕Mobile、PC、Web的GUI-Agent是未来的重要技术趋势之一,替代人类操作、提升生产效率。
Claude 3.5 Sonnet (Computer)
Apple Intelligence
OpenAI Operator
9. GUI 大模型智能体
现实世界是需要 多模态环境交互 的,多模态智能体可能衍生出更多Super、Fancy应用
Claude computer use
Operator
基于Computer-Using Agent 模型,结合GPT-4o
参照人类思考系统的快速反应与慢反思结合的工作模式,将LLM 的视觉理解能力和强化学习习得的推理能力,自动
快速响应和思维链深度思考
执行鼠标和键盘的组合操作,无需API,具备推理
思维链和自动纠错能力
Claude 3.7 sonnet (computer use)
10. 大模型通用型智能体系统
从基于检索提供信息,到Agent执行任务的本质进阶
(1)规划-执行Tool-反思;(2)操作上云;(3)快操作 + 慢思考
Claude computer use
Manus/Open Manus
Manus强调“需求→规划→执行→交付”全流程自动化,无需用户持续指导便可能直接生成可交付成果,动态调整
执行路径,在解决现实世界问题方面表现卓越
11. 02
多模态多端智能体
Mobile - Agent
12. 多模态多端智能体Mobile - Agent
分析天气
搜索视频并评论
刷短视频并点赞
导航
13. 多模态多端智能体Mobile - Agent
在微博中搜索GTC2025的时间, 在小红书搜西湖附近的特色餐
然后在微信的GTC2025参会群中 厅,用高德地图导航过去
提醒大家
14. 多模态多端智能体Mobile - Agent
15. GUI 场景核心挑战
2
UI界面理解
定位操作
3
1
4
多步操作
规划反思
操作时延
核心挑战
16. 多模态多端智能体Mobile - Agent
时间
单步RT
基于GPT4o单
Agent 75% 30s
基于GPT4o多
Agent 80% 60s
V1 2024.1
ICLR2024 V2 2024.6
NeuIPS2024 V3-
Preview 2024.8
CCL Best
Demo
云栖大会 基于QwenVL
的多Agent 75% 10s
V3-E 2025.2 记忆增强、自
主进化 85% 5s
V3-Full 2025.8 端到端模型、
多Agent适配 90% 2.5s
CCL2024, CCL 2025 Highlight System
Github 6.1k stars
平均端到
端完成率
方案
17. 多模态多端智能体Mobile - Agent - V1
18. 多模态多端智能体Mobile - Agent - V1
•
•
大模型缺乏输出精确坐标的grounding能力
屏幕文本定位:使用OCR工具检测识别文本框
图标定位:使用图标分割检测工具检测所有图标和位置
行为空间
1. 点击文本
2. 点击图标
3. 打字
4. 上划 & 下划
5. 返回上一页面
6. 返回桌面
7. 结束
19. 多模态多端智能体Mobile - Agent - V2
冗长并且图文交错格式的操作历史,会大大增加智能体追踪任务进度的难度
20. 多模态多端智能体Mobile - Agent - V2
21. 多模态多端智能体Mobile - Agent - V2
动态评测:5个系统内置应用和5个第三方应用,每个APP和多个APP各2条基础指令和2条进阶指令
22. Mobile - Agent - E :解决复杂任务、自主进化
复杂指令:
执行复杂推理、多步规划
以及跨App操作
自我进化:
反思过往的任务记录,从
经验中学习,自动生成
Tips和Shortcut
23. Mobile - Agent - E :解决复杂任务、自主进化
24. Mobile - Agent - E :解决复杂任务、自主进化
25. 03
Foundation Agent
for GUI
26. Qwen2.5 - VL :认识世界到理解世界
27. Qwen2.5 - VL :Mobile - Agent 能力提升
28. Mobile - Agent - V3 & GUI - Owl
基建架构
29. Mobile - Agent - V3 & GUI - Owl
30. GUI - Owl 整体交互flow
31. GUI - Owl 数据合成链路- Grounding
32. GUI - Owl 数据合成链路- 自进化轨迹合成
33. Mobile - Agent Agentic RL 能力提升
34. Mobile - Agent V3 Agent 框架
35. Mobile - Agent V3 实验
Scaling of Historical Images and maximum interaction Steps
Effect of Reasoning data synthesis on Android World
36. Mobile - Agent V3 实验
Performance comparison on agentic frameworks
37. Mobile - Agent V3 云沙箱Demo
38. Mobile - Agent V3 云沙箱Demo
https://modelscope.cn/studios/wangjunyang/Mobil
e-Agent-v3
https://bailian.console.aliyun.com
39. Mobile - Agent 开源应用
https://github.com/X-PLUG /MobileAgent
40. Qwen3 - VL :明察、深思、广行
41. 大模型通用型智能体系统- 未来方向
技术角度:
• Agentic RL Scaling,提升自主推理和知识进化;
• MCP、Code、GUI相结合;
• DeepResearch + Operator -> ChatGPT agent;
Claude
computer use
•
个性化交互与记忆;
42.
43. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining The Software