通义多模态、多端 GUI 智能体 Mobile-Agent

1. 通义多模态、多端GUI智能体Mobile-Agent 徐海洋

2. 目录 01 大模型智能体背景 02 多模态多端智能体Mobile - Agent 03 Foundation Agent for GUI

3.

4. 01 大模型智能体背景

5. 大模型智能体系统在人工智能领域，AI智能体指可以观察周遭环境并作出行动以达致目标的自主实体

6. 大模型智能体的优势 OpenAI Five LLM Agent with ChatGPT 传统基于RL的智能体的局限性数据采样专有环境和低效面向特定任务稀疏奖励和长时段问题大模型智能体的优势大模型智能体的优势丰富的世界知识推理/规划能力工具使用（检索、code等） In-context Learning

7. 近期两类AI Agent 应用 Action Agent （GUI Agent） Information Agent (DeepResearch) 作用 [硬]“眼睛”&“手” 环境感知和行动执行 [软]“大脑” 思考、规划和综合分析适用场景 [自动化]操作密集型办公、生活操作任务 [智能化]知识密集型办公Search创作场景示例 Operator、Apple Intelligence、 Claude、Mobile-Agent Deep Research （OpenAI、谷歌、Qwen） ChatGPT-Agent、Manus

8. GUI 智能体发展迅速围绕Mobile、PC、Web的GUI-Agent是未来的重要技术趋势之一，替代人类操作、提升生产效率。 Claude 3.5 Sonnet (Computer) Apple Intelligence OpenAI Operator

9. GUI 大模型智能体现实世界是需要多模态环境交互的，多模态智能体可能衍生出更多Super、Fancy应用 Claude computer use Operator 基于Computer-Using Agent 模型，结合GPT-4o 参照人类思考系统的快速反应与慢反思结合的工作模式,将LLM 的视觉理解能力和强化学习习得的推理能力，自动快速响应和思维链深度思考执行鼠标和键盘的组合操作，无需API，具备推理思维链和自动纠错能力 Claude 3.7 sonnet (computer use)

10. 大模型通用型智能体系统从基于检索提供信息，到Agent执行任务的本质进阶（1）规划-执行Tool-反思；（2）操作上云；（3）快操作 + 慢思考 Claude computer use Manus/Open Manus Manus强调“需求→规划→执行→交付”全流程自动化，无需用户持续指导便可能直接生成可交付成果，动态调整执行路径，在解决现实世界问题方面表现卓越

11. 02 多模态多端智能体 Mobile - Agent

12. 多模态多端智能体Mobile - Agent 分析天气搜索视频并评论刷短视频并点赞导航

13. 多模态多端智能体Mobile - Agent 在微博中搜索GTC2025的时间，在小红书搜西湖附近的特色餐然后在微信的GTC2025参会群中厅，用高德地图导航过去提醒大家

14. 多模态多端智能体Mobile - Agent

15. GUI 场景核心挑战 2 UI界面理解定位操作 3 1 4 多步操作规划反思操作时延核心挑战

16. 多模态多端智能体Mobile - Agent 时间单步RT 基于GPT4o单 Agent 75% 30s 基于GPT4o多 Agent 80% 60s V1 2024.1 ICLR2024 V2 2024.6 NeuIPS2024 V3- Preview 2024.8 CCL Best Demo 云栖大会基于QwenVL 的多Agent 75% 10s V3-E 2025.2 记忆增强、自主进化 85% 5s V3-Full 2025.8 端到端模型、多Agent适配 90% 2.5s CCL2024, CCL 2025 Highlight System Github 6.1k stars 平均端到端完成率方案

17. 多模态多端智能体Mobile - Agent - V1

18. 多模态多端智能体Mobile - Agent - V1 • • 大模型缺乏输出精确坐标的grounding能力屏幕文本定位：使用OCR工具检测识别文本框图标定位：使用图标分割检测工具检测所有图标和位置行为空间 1. 点击文本 2. 点击图标 3. 打字 4. 上划 & 下划 5. 返回上一页面 6. 返回桌面 7. 结束

19. 多模态多端智能体Mobile - Agent - V2 冗长并且图文交错格式的操作历史，会大大增加智能体追踪任务进度的难度

20. 多模态多端智能体Mobile - Agent - V2

21. 多模态多端智能体Mobile - Agent - V2 动态评测：5个系统内置应用和5个第三方应用，每个APP和多个APP各2条基础指令和2条进阶指令

22. Mobile - Agent - E ：解决复杂任务、自主进化复杂指令：执行复杂推理、多步规划以及跨App操作自我进化：反思过往的任务记录，从经验中学习，自动生成 Tips和Shortcut

23. Mobile - Agent - E ：解决复杂任务、自主进化

24. Mobile - Agent - E ：解决复杂任务、自主进化

25. 03 Foundation Agent for GUI

26. Qwen2.5 - VL ：认识世界到理解世界

27. Qwen2.5 - VL ：Mobile - Agent 能力提升

28. Mobile - Agent - V3 & GUI - Owl 基建架构

29. Mobile - Agent - V3 & GUI - Owl

30. GUI - Owl 整体交互flow

31. GUI - Owl 数据合成链路- Grounding

32. GUI - Owl 数据合成链路- 自进化轨迹合成

33. Mobile - Agent Agentic RL 能力提升

34. Mobile - Agent V3 Agent 框架

35. Mobile - Agent V3 实验 Scaling of Historical Images and maximum interaction Steps Effect of Reasoning data synthesis on Android World

36. Mobile - Agent V3 实验 Performance comparison on agentic frameworks

37. Mobile - Agent V3 云沙箱Demo

38. Mobile - Agent V3 云沙箱Demo https://modelscope.cn/studios/wangjunyang/Mobil e-Agent-v3 https://bailian.console.aliyun.com

39. Mobile - Agent 开源应用 https://github.com/X-PLUG /MobileAgent

40. Qwen3 - VL ：明察、深思、广行

41. 大模型通用型智能体系统- 未来方向技术角度： • Agentic RL Scaling，提升自主推理和知识进化； • MCP、Code、GUI相结合； • DeepResearch + Operator -> ChatGPT agent； Claude computer use • 个性化交互与记忆；

42.

43. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software