面向开放域的大模型智能体

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 面向开放域的 大模型智能体 李鹏 清华大学智能产业研究院(AIR)
2.
3. 大模型智能体迅猛发 展 • 2023年以来大模型智能体受到广泛关注,研究、框架、应用迅猛发展。 Wang et al. 2023. A Survey on Large Language Model based Autonomous Agents. arXiv: 2308.11432. 3
4. 智能体是OpenAI的重点发力方 向 • OpenAI高度关注智能体,GPTs是面向个人需求推出的智能体方案。 “ 但 是 当 新 的 AI Agents 论 文 出 来 的时候,我们都非 常感兴趣,觉得它 非常酷,因为我们 的团队并没有花费 五年时间在这上 面,我们并不比你 们更多掌握什么, 我们正在与你们所 有人一起竞争。” 机遇:在智能体方向国内外基本处于同一起跑 线 4 图片和资料来自网络
5. 智能体历史沿 革 • 智能体概念由来以久,是对人工智能问题的重要研究抽象。 An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators. —— Stuart J. Russell and Peter Norvig Russell, S. J. Artificial intelligence: A modern approach. Pearson Education, Inc., 2010. 5
6. 传统智能体 v.s. 大模型智能 体 • 解决开放域问题将是大模型智能体区别于传统智能体的关键特征之一。 AlphaStar • • • AutoGPT 训练:强化学习+自我对弈 • 训练:免训练 数据:专用环境收集的海量数 • 数据:无需专门收集数据 据 • 任务:可完成多样化开放任 任务:仅能玩星际争霸2 务 https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/ ; https://auto-gpt.ai/ 6
7. 大模型智能体现 状 • 当前大模型智能体虽获取广泛关注,但尚未完成在开放域上的效果阶跃。 潜力初现 效果阶跃 GPT-3 ChatGPT • 通用性 • 自主性 • 有效性 大模型智能体 7
8. 典型系统1:OpenAI GPTs • • 基础版:使用文字配置智能体,可看作系统提示(system prompt)的产品化。 进阶版:基础版+工具调用 ,增加了一定自主性。 通用性 可引入外部API GPTs自主决定何时使用API 自主性 有效性 图片来源:https://www.datacamp.com/tutorial/how-to-make-custom-gpts 8
9. 典型系统2:斯坦福小 镇 • 可以一定程度实现人类行为的模拟,并观察到涌现行为。 • 目前尚无法胜任大规模人类行为的模拟,模拟可信性也仍需提高。 通用性 自主性 有效性 Park et al., 2023. Generative Agents: Interactive Simulacra of Human Behavior. UIST '23. 9
10. 典型系统3:AI化学家 Coscientist • 可实际操作特定实验设备完成需要复杂合成步骤的化合物合成。 • 专用系统:智能体在部分环节可以使用搜索引擎,但所有步骤均由人类设计。 通用性 自主性 有效性 Boiko et al., 2023. Autonomous Chemical Research with Large Language Models. Nature. 10
11. 典型系统4:AutoGPT/MetaGPT • • 由人类提出宏观任务,智能体自主完成任务分解并分步执行从而完成宏观任务。 最常用测试场景为编写代码,但目前仍然无法胜任大工程。 通用性 自主性 有效性 Hong et al., 2023. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352. 11
12. 典型系统5:Voyager • • 智能体在Minecraft中自主探索从而逐步学习到技能树。 专用系统:理论上可泛化性到可用代码描述场景,但设计中依赖于特定API抽象。 通用性 自主性 有效性 Wang et al., 2023. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291. 12
13. 大模型智能体系统现状小 结 • 当前智能体仍处于发展的初级阶段,距离开放域理想系统仍然具有很大差距。 典型系统 通用性 OpenAI GPTs AI化学家 斯坦福小镇 AutoGPT/MetaGPT Voyager 开放域理想智能体 13 自主性 有效性
14. 开放域任务的基本构 成 • 智能体、人类、环境是复杂开放域任务的基本构成角色。 人类 环境 智能体 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 14
15. 智能体走向开放域的准则:统一对 齐 • 通过对齐自身限制,智能体向着更高效运行的方向进化。 人类 环境 对齐自身限制 时间消耗、金钱消耗等 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 15
16. 智能体走向开放域的准则:统一对 齐 • 通过对齐人类意图,智能体向着更理解人类的方向进化。 对齐人类意图 二义性、潜在偏好等 环境 智能体 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 16
17. 智能体走向开放域的准则:统一对 齐 • 通过对齐环境规律,智能体向着更适应环境的方向进化。 对齐环境规律 动态性、随机性等 人类 智能体 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 17
18. 智能体-人类-环境统一对 齐 • 三种角色共同构成了智能体走向开放域的统一对齐准则。 对齐人类意图 二义性、潜在偏好等 对齐环境规律 动态性、随机性等 对齐自身限制 时间消耗、金钱消耗等 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 18
19. 基准平台现状:未完整体现开放域挑 战 • 现有基准平台未从三方面反映对齐准则,未完整体现开放域的挑战。 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 19
20. 方法框架现状:难完全胜任开放域挑 战 • 现有方法框架未遵循统一对齐准则,难完全胜任开放域的挑战。 自身限制 人类意图 环境规律 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 20
21. 小结 自身限制 → 代价敏感的大模型智能 体 统一对 齐 人类意图 → 领域增强的大模型智能 体 环境规律 → 环境感知的大模型智能 体 21
22. 智能体- 人类- 环境统一对⻬ 代价敏感的大模型智能体 22
23. 真实环境中的运行代 价 • 运行在真实环境中的大模型智能体需感知环境代价,而不应仅以任务达成为目标。 大模型推理的经济成本 大模型推理的时间成本 环境探索的后效性成本 1. https://openai.com/pricing#language-models 2. https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices 3. Towards Unified Alignment Between Agents, Humans, and Environment 23
24. 技术挑战:工具学习方法缺乏对成本建 模 • 当前多数工具学习方法着眼于任务完成率,而极少考虑任务完成代价。 代价受限条件下通过率(PBC) 70.0 60.0 50.0 40.0 63.8 61.6 20 无限 44.0 34.1 28.8 30.0 20.0 10.2 10.0 0.0 ReAct 引入搜索机制的方法任务完成率更高 DFSDT ToT-DFS 当代价约束由无限降为20时各方法效果均大幅下降 1. Qin et al., 2023. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. ICLR 2024. 2. Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 24
25. 创新思路:基于历史经验制定规 划 • 根据工具学习的历史经验制定工具学习规划以降低代价、提高任务完成率。 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 25
26. 技术方案:代价构成推 演 • 工具调用代价由相对固定的全局代价和与工具调用次数相关的动态代价构成。 代价限制 相对固定代价 系统提示、用户提示等 规划 为每个工具指 定 最大调用次 数 ! + # % & ! "#$ • ≤ • 单次调用代价 任务完成 代价约束 代价构成: • 调用大语言模型API以及工具 所产生的时间和金钱花费。 Token消耗、时间等 期望价值估计 频次限制估计 假设时间花费可通过转换函 数转换为金钱花费。 如果令 = − ! ,则费用限 制条件下的工具学习也可以 表示为 ∑ % "#$ & ! ≤ 。 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 26
27. 技术方案:期望价值估 计 • 给定用户请求,基于历史经验估计工具对解决该用户请求的期望价值。 请求 工具 返回结果 请求 工具 返回结果 请求 工具 返回结果 …… 历史经验 用户请求 用检索模型 计算相似度 基于分类模型判断 返回结果是否对解 决请求有帮助 按相似度 加权平均 期望价值 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 27
28. 技术方案:频次限制估 计 • 给定用户请求,基于历史经验估计工具在全过程被调用的最大频次。 历史经验 请求 工具 返回结果 请求 工具 返回结果 请求 工具 返回结果 统计各请求 中候选工具 的访问频次 …… 期望价值 加权平均计算 访问频次限制 否 期望价值 小于阈值 是 访问频次限 制设为0 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 28
29. 技术方案:制定并应用规 划 • 规划制定:给定费用 和 访问频次限制,基 于动 态规划算法最大 化期望 价值之和,进 而获得工 具调用最大 次数 • 规划应用:推理过程 中 禁止调用访问次数 达到 上限的工具 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 29
30. 主要实验结果:代价受限下任务完成情 况 • 显著提高代价限制条件下的通过率,且对复杂方法效果显著。 80 Ori +Ours 64.5 64.1 63.8 62.2 60 43.7 40 34.1 45.8 36.5 29 28.8 20 10.2 9.8 0 ReAct +Prompt DFSDT +Prompt ToT-DFS +Prompt 代价受限条件下通过率(PBC) Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 30
31. 主要实验结果:代价受限下任务完成情 况 • 在prompt中添加关于代价的提示几乎无收益。 80 Ori +Ours 64.5 64.1 63.8 62.2 60 43.7 40 34.1 45.8 36.5 29 28.8 20 10.2 9.8 0 ReAct +Prompt DFSDT +Prompt ToT-DFS +Prompt 代价受限条件下通过率(PBC) Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 31
32. 主要实验结果:平均代 价 • 显著降低平均代价,且对复杂方法效果显著。 100.0 80.0 Ori +Ours 78.3 73.3 60.0 51.4 49.7 40.0 20.0 15.4 6.9 15.7 7.6 9.2 9.2 10.8 11.0 0.0 ReAct +Prompt DFSDT +Prompt ToT-DFS +Prompt 平均代价 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 32
33. 延伸挑战:工具使用智能体评测的不稳定 性 • 广泛使用的ToolBench工具评测数据集存在较大不稳定性。 ToolBench的在发布6个月后 相同模型同等条件下效果明显下降 不稳定性的重要来源是 API状态的变化 1. Qin et al., 2023. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. ICLR 2024. 2. Guo et al., 2023. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models. arXiv:2403.07714. 33
34. 创新思路:使用带有缓存的API服务 器 • 缓存系统:将评测时的API使用记录下来,保证评测一致。 • API模拟器:在缓存和真实API都无法获取时使用LLM模拟真实API。 Guo et al., 2023. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models. arXiv:2403.07714. 34
35. 主要实验结果:评测稳定性显著提 升 • 失败的真实API不再大幅影响评测结果,评测稳定性显著提升。 ToolBench评测效果受API可用 性影响显著 使用我们方法评测效果受API可 用性影响显著降低 Guo et al., 2023. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models. arXiv:2403.07714. 35
36. 智能体- 人类- 环境统一对⻬ 领域增强的大模型智能体 36
37. 领域知识制约大模型智能体发 展 • 大模型是大模型智能体的基础,但训练阶段难于覆盖全部领域数据。 美团 大众点评 京东 自如 私域数据:商业、隐私、法规等因素制约数据流通,且数据具备高度动态 性 37
38. 领域知识制约大模型智能体发 展 • 同一私域内亦有差异显著的子领域和能力需求,领域知识获取仍具挑战。 买菜 买药 门票 38 团购
39. 领域知识制约大模型智能体发 展 • 各领域已产生大量领域专家模型,包含大量领域知识且在领域问题上表现出色。 领域专家模 型 39
40. 领域知识制约大模型智能体发 展 • 将领域专家模型知识有效传输给大模型以更好服务人类需求具有重要的现实意义。 领域专家模 型 大模型 40
41. 技术挑战:领域知识传输 难 • 如何充分利用大模型通用能力实现更加高效的领域知识传输仍具挑战。 知识蒸馏 • 时间、算力开销大 • 微调可能损害模型原有能力 自我纠错 检索增强 • 时间、算力开销小 • 针对知识传输的解决方案不完善 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 41
42. 创新思路:学习专家偏好实现无参知识传 输 • 基于大模型从专家模型偏好中总结知识并“举一反三”,从而实现知识传输。 专家模型 领域能力强 通用能力弱 大模型 领域能力弱 通用能力强 关键思路:在语言空间令大模型自主总结专家模型行为偏好实现知识传输 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 42
43. 技术方案:偏好引导的知识传 输 • 以专家小模型输出分布作为偏好,利用大模型对其进行逆向解释形成可泛化知识。 Prompt {Query} 学 习 阶 段 T h e e x p e r t p re f e r { A } rather than {B}. Explain the reason why the expert holds on this preferences. A和B为来自专家模型输出分布 A的logit大于B的logit Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 43
44. 技术方案:偏好引导的知识传 输 • 推理阶段检索与当前请求相关的历史知识对模型行为进行引导。 Prompt {Prompt Context} These are some insights that may be helpful for you to improve success rate: 推 理 阶 段 {Retrieved Insights} {Prompt Context} 从偏好知识库检索相关的偏好知识 用来对大语言模型(学生)进行偏好引导 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 44
45. 主要实验结果:交互式决策任 务 • 有效传输:多个任务上 • 基 于多种智能体算法都 有明 显提升。 举一反三:4个任务上学 生优于教师。 ScienceWorld 示意图 实际为纯文本交互环境 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 45
46. 主要实验结果:分类任 务 • 多个文本分类任务上呈现良好知识传输效果,且同样观察到“举一反三”现象。 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 46
47. 主要实验结果:分类任 务 • 多个文本分类任务上呈现良好知识传输效果,且同样观察到“举一反三”现象。 举一反三:专家模型弱于大语言模型 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 47
48. 主要实验结果:跨任务泛 化 • 交互决策任务/分类任务均呈现出一定的跨任务泛化(“举一反三”)效果。 分 类 任 务 交 互 决 策 任 务 注:Task1-1 1-4表示在Task1-1上学习、在Task1-4上测试 重要观察:大模型“举一反三” 能力为实现更加高效通用的智 能 体提供了全新可能性 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 48
49. 智能体- 人类- 环境统一对⻬ 环境感知的大模型智能体 49
50. 基于轨迹数据增强环境感 知 • 智能体可利用任务执行过程的交互轨迹,通过训练语言模型增强环境 感 知,进而学习解决任务的策略。 Chen et al. 2023. FireAct: Toward Language Agent Fine-tuning. arXiv:2310.05915. 50
51. 技术挑战:多样化轨迹数据难获 取 • 人类或基于提示工程的智能体均难获取大规模多样化的训练轨迹。 人类与环境交互 从而标注训练轨 迹 人类实现基于提示工程的智能体框 架 智能体与环境交互得到训练轨 迹 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 51
52. 创新思路:智能体自主标注训练轨 迹 • 智能体自主实现训练轨迹的标注,进而进行自我训练。 智能体通过协作自主标注训练轨迹,无需人类参 与 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 52
53. 技术方案:解释动作的智能体 ActRe • 现有的智能体(ReAct)基于推理(Reason)给出动作(Action) • 引入基于动作(Action)解释原因(Reason)的智能体(ActRe) Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 53
54. 技术方案:ReAct与ActRe协作标 注 • 采样新动作(Action)时,利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. ActRe: Obs. Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 54
55. 技术方案:ReAct与ActRe协作标 注 • 采样新动作(Action)时,利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. ActRe: Obs. → Act Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 55
56. 技术方案:ReAct与ActRe协作标 注 • 采样新动作(Action)时,利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. ActRe: Obs. → Act → Reason Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 56
57. 技术方案:ReAct与ActRe协作标 注 • 采样新动作(Action)时,利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. → Reason → Act ActRe: Obs. → Act → Reason Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 57
58. 技术方案:ReAct与ActRe协作标 注 • 采样新动作(Action)时,利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. → Reason → Act → Obs’ ActRe: Obs. → Act → Reason → Obs’ Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 58
59. 技术方案:对比式自我训 练 • 标注得到的轨迹有失败有成功,通过对比式自我训练增强环境感知。 对比式自我训练 自主轨迹标注 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 59
60. 主要实验结果: AlfWorld • 在文本具身平台AlfWorld上自我训练,测试阶段迭代尝试成功率: Reflexion:基于自身生成反思的迭代框架 RAFA:基于GPT-4做局势判断的迭代框架 97 (8轮迭代) 99 99 97 (11轮迭代) 100 (4轮迭代) (3轮迭代) (2轮迭代) 86 (1轮迭代) Reflexion RAFA 我们的方法 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 60
61. 主要实验结果: WebShop • 在线购物平台WebShop上自我训练,测试阶段迭代尝试成功率: LATS:多轮自我反思与树搜索 60 55 53 (4轮迭代) (3轮迭代) 52 (2轮迭代) 50 45 38 (1轮迭代) (30轮迭代) LAST 我们的方法 普通人 专家 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 61
62. 未来展望:向达成智能体-人类-环境统一对齐持续推 进 • 更加开放:基础模型持续引入开放域知 智能体 • 识 持续进化:智能体个体和群体持续进化 • 具身自主:加速走向具身化并主动获取知 识 开放域 环境 • 数字环境:真实性和多样性持续提升 • 数学模拟环境:在世界模型驱动下日趋完 善 人类 • 真实物理环境:数据获取成本持续降低 • 创造新业态:Agent + X 改变产业结 构 • 创造新知识:智能体逐渐发展出创造力 62
63. 总结 • 智能体是大模型解决更复杂问题的重要范式抽象,亟需全面走向开放域。 • 智能体-人类-环境统一对齐是实现理想开放域大模型智能体系统的重要原则。 • 我们在面向开放域大模型智能体方向开展初步探索: • • 自身限制 → 代价敏感的大模型智能体; • 人类意图 → 领域增强的大模型智能体; • 环境规律 → 环境感知的大模型智能体。 智能体系统将向达成智能体-人类-环境统一对齐目标持续推进。 63
64.
65. 65

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.138.0. UTC+08:00, 2024-12-22 09:07
浙ICP备14020137号-1 $Map of visitor$