通义多模态、多端 GUI 智能体 Mobile-Agent

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #AI Agent
1. 通义多模态、多端GUI智 能体Mobile-Agent 徐海洋
2. 目录 01 大模型智能体背景 02 多模态多端智能体Mobile - Agent 03 Foundation Agent for GUI
3.
4. 01 大模型智能体背景
5. 大模型智能体系统 在人工智能领域,AI智能体指可以观察周遭 环境 并作出 行动 以达致 目标 的 自主 实体
6. 大模型智能体的优势 OpenAI Five LLM Agent with ChatGPT 传统基于RL的智能体的局限性 数据采样专有环境和低效 面向特定任务 稀疏奖励和长时段问题 大模型智能体的优势 大模型智能体的优势 丰富的世界知识 推理/规划能力 工具使用 (检索、code等) In-context Learning
7. 近期两类AI Agent 应用 Action Agent (GUI Agent) Information Agent (DeepResearch) 作用 [硬]“眼睛”&“手” 环境感知和行动执行 [软]“大脑” 思考、规划和综合分析 适用场景 [自动化]操作密集型 办公、生活操作任务 [智能化]知识密集型 办公Search创作场景 示例 Operator、Apple Intelligence、 Claude、Mobile-Agent Deep Research (OpenAI、谷歌、Qwen) ChatGPT-Agent、Manus
8. GUI 智能体发展迅速 围绕Mobile、PC、Web的GUI-Agent是未来的重要技术趋势之一,替代人类操作、提升生产效率。 Claude 3.5 Sonnet (Computer) Apple Intelligence OpenAI Operator
9. GUI 大模型智能体 现实世界是需要 多模态环境交互 的,多模态智能体可能衍生出更多Super、Fancy应用 Claude computer use Operator 基于Computer-Using Agent 模型,结合GPT-4o 参照人类思考系统的快速反应与慢反思结合的工作模式,将LLM 的视觉理解能力和强化学习习得的推理能力,自动 快速响应和思维链深度思考 执行鼠标和键盘的组合操作,无需API,具备推理 思维链和自动纠错能力 Claude 3.7 sonnet (computer use)
10. 大模型通用型智能体系统 从基于检索提供信息,到Agent执行任务的本质进阶 (1)规划-执行Tool-反思;(2)操作上云;(3)快操作 + 慢思考 Claude computer use Manus/Open Manus Manus强调“需求→规划→执行→交付”全流程自动化,无需用户持续指导便可能直接生成可交付成果,动态调整 执行路径,在解决现实世界问题方面表现卓越
11. 02 多模态多端智能体 Mobile - Agent
12. 多模态多端智能体Mobile - Agent 分析天气 搜索视频并评论 刷短视频并点赞 导航
13. 多模态多端智能体Mobile - Agent 在微博中搜索GTC2025的时间, 在小红书搜西湖附近的特色餐 然后在微信的GTC2025参会群中 厅,用高德地图导航过去 提醒大家
14. 多模态多端智能体Mobile - Agent
15. GUI 场景核心挑战 2 UI界面理解 定位操作 3 1 4 多步操作 规划反思 操作时延 核心挑战
16. 多模态多端智能体Mobile - Agent 时间 单步RT 基于GPT4o单 Agent 75% 30s 基于GPT4o多 Agent 80% 60s V1 2024.1 ICLR2024 V2 2024.6 NeuIPS2024 V3- Preview 2024.8 CCL Best Demo 云栖大会 基于QwenVL 的多Agent 75% 10s V3-E 2025.2 记忆增强、自 主进化 85% 5s V3-Full 2025.8 端到端模型、 多Agent适配 90% 2.5s CCL2024, CCL 2025 Highlight System Github 6.1k stars 平均端到 端完成率 方案
17. 多模态多端智能体Mobile - Agent - V1
18. 多模态多端智能体Mobile - Agent - V1 • • 大模型缺乏输出精确坐标的grounding能力 屏幕文本定位:使用OCR工具检测识别文本框 图标定位:使用图标分割检测工具检测所有图标和位置 行为空间 1. 点击文本 2. 点击图标 3. 打字 4. 上划 & 下划 5. 返回上一页面 6. 返回桌面 7. 结束
19. 多模态多端智能体Mobile - Agent - V2 冗长并且图文交错格式的操作历史,会大大增加智能体追踪任务进度的难度
20. 多模态多端智能体Mobile - Agent - V2
21. 多模态多端智能体Mobile - Agent - V2 动态评测:5个系统内置应用和5个第三方应用,每个APP和多个APP各2条基础指令和2条进阶指令
22. Mobile - Agent - E :解决复杂任务、自主进化 复杂指令: 执行复杂推理、多步规划 以及跨App操作 自我进化: 反思过往的任务记录,从 经验中学习,自动生成 Tips和Shortcut
23. Mobile - Agent - E :解决复杂任务、自主进化
24. Mobile - Agent - E :解决复杂任务、自主进化
25. 03 Foundation Agent for GUI
26. Qwen2.5 - VL :认识世界到理解世界
27. Qwen2.5 - VL :Mobile - Agent 能力提升
28. Mobile - Agent - V3 & GUI - Owl 基建架构
29. Mobile - Agent - V3 & GUI - Owl
30. GUI - Owl 整体交互flow
31. GUI - Owl 数据合成链路- Grounding
32. GUI - Owl 数据合成链路- 自进化轨迹合成
33. Mobile - Agent Agentic RL 能力提升
34. Mobile - Agent V3 Agent 框架
35. Mobile - Agent V3 实验 Scaling of Historical Images and maximum interaction Steps Effect of Reasoning data synthesis on Android World
36. Mobile - Agent V3 实验 Performance comparison on agentic frameworks
37. Mobile - Agent V3 云沙箱Demo
38. Mobile - Agent V3 云沙箱Demo https://modelscope.cn/studios/wangjunyang/Mobil e-Agent-v3 https://bailian.console.aliyun.com
39. Mobile - Agent 开源应用 https://github.com/X-PLUG /MobileAgent
40. Qwen3 - VL :明察、深思、广行
41. 大模型通用型智能体系统- 未来方向 技术角度: • Agentic RL Scaling,提升自主推理和知识进化; • MCP、Code、GUI相结合; • DeepResearch + Operator -> ChatGPT agent; Claude computer use • 个性化交互与记忆;
42.
43. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 05:01
浙ICP备14020137号-1 $访客地图$