面向开放域的大模型智能体

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #AI Agent #清华大学

1. 面向开放域的大模型智能体李鹏清华大学智能产业研究院（AIR）

3. 大模型智能体迅猛发展 • 2023年以来大模型智能体受到广泛关注，研究、框架、应用迅猛发展。 Wang et al. 2023. A Survey on Large Language Model based Autonomous Agents. arXiv: 2308.11432. 3

4. 智能体是OpenAI的重点发力方向 • OpenAI高度关注智能体，GPTs是面向个人需求推出的智能体方案。 “ 但是当新的 AI Agents 论文出来的时候，我们都非常感兴趣，觉得它非常酷，因为我们的团队并没有花费五年时间在这上面，我们并不比你们更多掌握什么，我们正在与你们所有人一起竞争。” 机遇：在智能体方向国内外基本处于同一起跑线 4 图片和资料来自网络

5. 智能体历史沿革 • 智能体概念由来以久，是对人工智能问题的重要研究抽象。 An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators. —— Stuart J. Russell and Peter Norvig Russell, S. J. Artificial intelligence: A modern approach. Pearson Education, Inc., 2010. 5

6. 传统智能体 v.s. 大模型智能体 • 解决开放域问题将是大模型智能体区别于传统智能体的关键特征之一。 AlphaStar • • • AutoGPT 训练：强化学习+自我对弈 • 训练：免训练数据：专用环境收集的海量数 • 数据：无需专门收集数据据 • 任务：可完成多样化开放任任务：仅能玩星际争霸2 务 https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/ ； https://auto-gpt.ai/ 6

7. 大模型智能体现状 • 当前大模型智能体虽获取广泛关注，但尚未完成在开放域上的效果阶跃。潜力初现效果阶跃 GPT-3 ChatGPT • 通用性 • 自主性 • 有效性大模型智能体 7

8. 典型系统1：OpenAI GPTs • • 基础版：使用文字配置智能体，可看作系统提示（system prompt）的产品化。进阶版：基础版+工具调用，增加了一定自主性。通用性可引入外部API GPTs自主决定何时使用API 自主性有效性图片来源：https://www.datacamp.com/tutorial/how-to-make-custom-gpts 8

9. 典型系统2：斯坦福小镇 • 可以一定程度实现人类行为的模拟，并观察到涌现行为。 • 目前尚无法胜任大规模人类行为的模拟，模拟可信性也仍需提高。通用性自主性有效性 Park et al., 2023. Generative Agents: Interactive Simulacra of Human Behavior. UIST '23. 9

10. 典型系统3：AI化学家 Coscientist • 可实际操作特定实验设备完成需要复杂合成步骤的化合物合成。 • 专用系统：智能体在部分环节可以使用搜索引擎，但所有步骤均由人类设计。通用性自主性有效性 Boiko et al., 2023. Autonomous Chemical Research with Large Language Models. Nature. 10

11. 典型系统4：AutoGPT/MetaGPT • • 由人类提出宏观任务，智能体自主完成任务分解并分步执行从而完成宏观任务。最常用测试场景为编写代码，但目前仍然无法胜任大工程。通用性自主性有效性 Hong et al., 2023. MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. arXiv:2308.00352. 11

12. 典型系统5：Voyager • • 智能体在Minecraft中自主探索从而逐步学习到技能树。专用系统：理论上可泛化性到可用代码描述场景，但设计中依赖于特定API抽象。通用性自主性有效性 Wang et al., 2023. Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv:2305.16291. 12

13. 大模型智能体系统现状小结 • 当前智能体仍处于发展的初级阶段，距离开放域理想系统仍然具有很大差距。典型系统通用性 OpenAI GPTs AI化学家斯坦福小镇 AutoGPT/MetaGPT Voyager 开放域理想智能体 13 自主性有效性

14. 开放域任务的基本构成 • 智能体、人类、环境是复杂开放域任务的基本构成角色。人类环境智能体 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 14

15. 智能体走向开放域的准则：统一对齐 • 通过对齐自身限制，智能体向着更高效运行的方向进化。人类环境对齐自身限制时间消耗、金钱消耗等 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 15

16. 智能体走向开放域的准则：统一对齐 • 通过对齐人类意图，智能体向着更理解人类的方向进化。对齐人类意图二义性、潜在偏好等环境智能体 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 16

17. 智能体走向开放域的准则：统一对齐 • 通过对齐环境规律，智能体向着更适应环境的方向进化。对齐环境规律动态性、随机性等人类智能体 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 17

18. 智能体-人类-环境统一对齐 • 三种角色共同构成了智能体走向开放域的统一对齐准则。对齐人类意图二义性、潜在偏好等对齐环境规律动态性、随机性等对齐自身限制时间消耗、金钱消耗等 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 18

19. 基准平台现状：未完整体现开放域挑战 • 现有基准平台未从三方面反映对齐准则，未完整体现开放域的挑战。 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 19

20. 方法框架现状：难完全胜任开放域挑战 • 现有方法框架未遵循统一对齐准则，难完全胜任开放域的挑战。自身限制人类意图环境规律 Yang et al. 2024. Towards Unified Alignment Between Agents, Humans, and Environment. ICML 2024. 20

21. 小结自身限制 → 代价敏感的大模型智能体统一对齐人类意图 → 领域增强的大模型智能体环境规律 → 环境感知的大模型智能体 21

22. 智能体- 人类- 环境统一对⻬代价敏感的大模型智能体 22

23. 真实环境中的运行代价 • 运行在真实环境中的大模型智能体需感知环境代价，而不应仅以任务达成为目标。大模型推理的经济成本大模型推理的时间成本环境探索的后效性成本 1. https://openai.com/pricing#language-models 2. https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices 3. Towards Unified Alignment Between Agents, Humans, and Environment 23

24. 技术挑战：工具学习方法缺乏对成本建模 • 当前多数工具学习方法着眼于任务完成率，而极少考虑任务完成代价。代价受限条件下通过率（PBC） 70.0 60.0 50.0 40.0 63.8 61.6 20 无限 44.0 34.1 28.8 30.0 20.0 10.2 10.0 0.0 ReAct 引入搜索机制的方法任务完成率更高 DFSDT ToT-DFS 当代价约束由无限降为20时各方法效果均大幅下降 1. Qin et al., 2023. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. ICLR 2024. 2. Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 24

25. 创新思路：基于历史经验制定规划 • 根据工具学习的历史经验制定工具学习规划以降低代价、提高任务完成率。 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 25

26. 技术方案：代价构成推演 • 工具调用代价由相对固定的全局代价和与工具调用次数相关的动态代价构成。代价限制相对固定代价系统提示、用户提示等规划为每个工具指定最大调用次数 ! + # % & ! "#$ • ≤ • 单次调用代价任务完成代价约束代价构成： • 调用大语言模型API以及工具所产生的时间和金钱花费。 Token消耗、时间等期望价值估计频次限制估计假设时间花费可通过转换函数转换为金钱花费。如果令 = − ! ，则费用限制条件下的工具学习也可以表示为 ∑ % "#$ & ! ≤ 。 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 26

27. 技术方案：期望价值估计 • 给定用户请求，基于历史经验估计工具对解决该用户请求的期望价值。请求工具返回结果请求工具返回结果请求工具返回结果 …… 历史经验用户请求用检索模型计算相似度基于分类模型判断返回结果是否对解决请求有帮助按相似度加权平均期望价值 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 27

28. 技术方案：频次限制估计 • 给定用户请求，基于历史经验估计工具在全过程被调用的最大频次。历史经验请求工具返回结果请求工具返回结果请求工具返回结果统计各请求中候选工具的访问频次 …… 期望价值加权平均计算访问频次限制否期望价值小于阈值是访问频次限制设为0 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 28

29. 技术方案：制定并应用规划 • 规划制定：给定费用和访问频次限制，基于动态规划算法最大化期望价值之和，进而获得工具调用最大次数 • 规划应用：推理过程中禁止调用访问次数达到上限的工具 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 29

30. 主要实验结果：代价受限下任务完成情况 • 显著提高代价限制条件下的通过率，且对复杂方法效果显著。 80 Ori +Ours 64.5 64.1 63.8 62.2 60 43.7 40 34.1 45.8 36.5 29 28.8 20 10.2 9.8 0 ReAct +Prompt DFSDT +Prompt ToT-DFS +Prompt 代价受限条件下通过率（PBC） Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 30

31. 主要实验结果：代价受限下任务完成情况 • 在prompt中添加关于代价的提示几乎无收益。 80 Ori +Ours 64.5 64.1 63.8 62.2 60 43.7 40 34.1 45.8 36.5 29 28.8 20 10.2 9.8 0 ReAct +Prompt DFSDT +Prompt ToT-DFS +Prompt 代价受限条件下通过率（PBC） Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 31

32. 主要实验结果：平均代价 • 显著降低平均代价，且对复杂方法效果显著。 100.0 80.0 Ori +Ours 78.3 73.3 60.0 51.4 49.7 40.0 20.0 15.4 6.9 15.7 7.6 9.2 9.2 10.8 11.0 0.0 ReAct +Prompt DFSDT +Prompt ToT-DFS +Prompt 平均代价 Zheng et al., 2024. Budget-Constrained Tool Learning with Planning. arXiv:2402.15960. 32

33. 延伸挑战：工具使用智能体评测的不稳定性 • 广泛使用的ToolBench工具评测数据集存在较大不稳定性。 ToolBench的在发布6个月后相同模型同等条件下效果明显下降不稳定性的重要来源是 API状态的变化 1. Qin et al., 2023. ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. ICLR 2024. 2. Guo et al., 2023. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models. arXiv:2403.07714. 33

34. 创新思路：使用带有缓存的API服务器 • 缓存系统：将评测时的API使用记录下来，保证评测一致。 • API模拟器：在缓存和真实API都无法获取时使用LLM模拟真实API。 Guo et al., 2023. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models. arXiv:2403.07714. 34

35. 主要实验结果：评测稳定性显著提升 • 失败的真实API不再大幅影响评测结果，评测稳定性显著提升。 ToolBench评测效果受API可用性影响显著使用我们方法评测效果受API可用性影响显著降低 Guo et al., 2023. StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models. arXiv:2403.07714. 35

36. 智能体- 人类- 环境统一对⻬领域增强的大模型智能体 36

37. 领域知识制约大模型智能体发展 • 大模型是大模型智能体的基础，但训练阶段难于覆盖全部领域数据。美团大众点评京东自如私域数据：商业、隐私、法规等因素制约数据流通，且数据具备高度动态性 37

38. 领域知识制约大模型智能体发展 • 同一私域内亦有差异显著的子领域和能力需求，领域知识获取仍具挑战。买菜买药门票 38 团购

39. 领域知识制约大模型智能体发展 • 各领域已产生大量领域专家模型，包含大量领域知识且在领域问题上表现出色。领域专家模型 39

40. 领域知识制约大模型智能体发展 • 将领域专家模型知识有效传输给大模型以更好服务人类需求具有重要的现实意义。领域专家模型大模型 40

41. 技术挑战：领域知识传输难 • 如何充分利用大模型通用能力实现更加高效的领域知识传输仍具挑战。知识蒸馏 • 时间、算力开销大 • 微调可能损害模型原有能力自我纠错检索增强 • 时间、算力开销小 • 针对知识传输的解决方案不完善 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 41

42. 创新思路：学习专家偏好实现无参知识传输 • 基于大模型从专家模型偏好中总结知识并“举一反三”，从而实现知识传输。专家模型领域能力强通用能力弱大模型领域能力弱通用能力强关键思路：在语言空间令大模型自主总结专家模型行为偏好实现知识传输 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 42

43. 技术方案：偏好引导的知识传输 • 以专家小模型输出分布作为偏好，利用大模型对其进行逆向解释形成可泛化知识。 Prompt {Query} 学习阶段 T h e e x p e r t p re f e r { A } rather than {B}. Explain the reason why the expert holds on this preferences. A和B为来自专家模型输出分布 A的logit大于B的logit Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 43

44. 技术方案：偏好引导的知识传输 • 推理阶段检索与当前请求相关的历史知识对模型行为进行引导。 Prompt {Prompt Context} These are some insights that may be helpful for you to improve success rate: 推理阶段 {Retrieved Insights} {Prompt Context} 从偏好知识库检索相关的偏好知识用来对大语言模型（学生）进行偏好引导 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 44

45. 主要实验结果：交互式决策任务 • 有效传输：多个任务上 • 基于多种智能体算法都有明显提升。举一反三：4个任务上学生优于教师。 ScienceWorld 示意图实际为纯文本交互环境 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 45

46. 主要实验结果：分类任务 • 多个文本分类任务上呈现良好知识传输效果，且同样观察到“举一反三”现象。 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 46

47. 主要实验结果：分类任务 • 多个文本分类任务上呈现良好知识传输效果，且同样观察到“举一反三”现象。举一反三：专家模型弱于大语言模型 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 47

48. 主要实验结果：跨任务泛化 • 交互决策任务/分类任务均呈现出一定的跨任务泛化（“举一反三”）效果。分类任务交互决策任务注：Task1-1 1-4表示在Task1-1上学习、在Task1-4上测试重要观察：大模型“举一反三” 能力为实现更加高效通用的智能体提供了全新可能性 Liu et al., 2023. PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs. arXiv:2402.12835. 48

49. 智能体- 人类- 环境统一对⻬环境感知的大模型智能体 49

50. 基于轨迹数据增强环境感知 • 智能体可利用任务执行过程的交互轨迹，通过训练语言模型增强环境感知，进而学习解决任务的策略。 Chen et al. 2023. FireAct: Toward Language Agent Fine-tuning. arXiv:2310.05915. 50

51. 技术挑战：多样化轨迹数据难获取 • 人类或基于提示工程的智能体均难获取大规模多样化的训练轨迹。人类与环境交互从而标注训练轨迹人类实现基于提示工程的智能体框架智能体与环境交互得到训练轨迹 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 51

52. 创新思路：智能体自主标注训练轨迹 • 智能体自主实现训练轨迹的标注，进而进行自我训练。智能体通过协作自主标注训练轨迹，无需人类参与 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 52

53. 技术方案：解释动作的智能体 ActRe • 现有的智能体(ReAct)基于推理(Reason)给出动作(Action) • 引入基于动作(Action)解释原因(Reason)的智能体(ActRe) Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 53

54. 技术方案：ReAct与ActRe协作标注 • 采样新动作(Action)时，利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. ActRe: Obs. Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 54

55. 技术方案：ReAct与ActRe协作标注 • 采样新动作(Action)时，利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. ActRe: Obs. → Act Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 55

56. 技术方案：ReAct与ActRe协作标注 • 采样新动作(Action)时，利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. ActRe: Obs. → Act → Reason Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 56

57. 技术方案：ReAct与ActRe协作标注 • 采样新动作(Action)时，利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. → Reason → Act ActRe: Obs. → Act → Reason Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 57

58. 技术方案：ReAct与ActRe协作标注 • 采样新动作(Action)时，利用ActRe得到动作的原因(Reason) • 得到的原因(Reason)和采样的动作(Action)构成ReAct轨迹标注 ReAct: Obs. → Reason → Act → Obs’ ActRe: Obs. → Act → Reason → Obs’ Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 58

59. 技术方案：对比式自我训练 • 标注得到的轨迹有失败有成功，通过对比式自我训练增强环境感知。对比式自我训练自主轨迹标注 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 59

60. 主要实验结果： AlfWorld • 在文本具身平台AlfWorld上自我训练，测试阶段迭代尝试成功率： Reflexion：基于自身生成反思的迭代框架 RAFA：基于GPT-4做局势判断的迭代框架 97 (8轮迭代) 99 99 97 (11轮迭代) 100 (4轮迭代) (3轮迭代) (2轮迭代) 86 (1轮迭代) Reflexion RAFA 我们的方法 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 60

61. 主要实验结果： WebShop • 在线购物平台WebShop上自我训练，测试阶段迭代尝试成功率： LATS：多轮自我反思与树搜索 60 55 53 (4轮迭代) (3轮迭代) 52 (2轮迭代) 50 45 38 (1轮迭代) (30轮迭代) LAST 我们的方法普通人专家 Yang et al. 2024. ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy. arXiv:2403.14589. 61

62. 未来展望：向达成智能体-人类-环境统一对齐持续推进 • 更加开放：基础模型持续引入开放域知智能体 • 识持续进化：智能体个体和群体持续进化 • 具身自主：加速走向具身化并主动获取知识开放域环境 • 数字环境：真实性和多样性持续提升 • 数学模拟环境：在世界模型驱动下日趋完善人类 • 真实物理环境：数据获取成本持续降低 • 创造新业态：Agent + X 改变产业结构 • 创造新知识：智能体逐渐发展出创造力 62

63. 总结 • 智能体是大模型解决更复杂问题的重要范式抽象，亟需全面走向开放域。 • 智能体-人类-环境统一对齐是实现理想开放域大模型智能体系统的重要原则。 • 我们在面向开放域大模型智能体方向开展初步探索： • • 自身限制 → 代价敏感的大模型智能体； • 人类意图 → 领域增强的大模型智能体； • 环境规律 → 环境感知的大模型智能体。智能体系统将向达成智能体-人类-环境统一对齐目标持续推进。 63

64.

65. 65