对话系统：从经验驱动到数据驱动到环境驱动

如果无法正常显示，请先停止浏览器的去广告插件。

1. 对话系统 – 从经验驱动到数据驱动到环境驱动王凡

2. 对话系统：意义 • • AI前沿角度 • 艾伦·麦席森·图灵 : 对话本身就是检验“机器能否思考”的重要标准 • 在当代，能否像人类一样对话是AI发展重要标志实用主义角度 • 搜索系统 – 用户完全主动，服务提供方完全被动 • 推荐系统 – 用户完全被动，服务提供方完全主动 • 对话系统 – 用户和服务提供方交互 • 可动态切换被动和主动

3. 对话系统：发展史百度PLATO-2模型 (2020) 音箱助理 Alexa (2014) 手机助理 Siri (2011) Xerox GUS (1977) 百度度秘 (2015) POMDP 对话管理模型 (2005) Pandorabots 对话AI开发平台 (2008) 深度学习方法模块化和统计方法基于规则的方法百度PLATO模型 (2019) 百度 UNIT 端到端 (2017) 任务式对话 (2016) ALICE进行图灵测试 (1995) MIT Eliza (1966) 神经网络对话模型(2015) 超大规模对话模型 Meena (2020)

4. 对话系统：专家经验和规则 ELIZA • 由MIT工程师 Joseph Weizenbaum在1966设计 • 世界第一个聊天机器人 • 可以模拟心理治疗师同患者进行聊天符号主义和专家系统的AI设计方法曾在1960～1970达到顶峰；曾经大多数人认为，通过这些逻辑运算规则可以最终实现类人AI，但是1980年代之后沉寂，现在大家已经基本否决了通过专家经验达到AGI的可能性

5. 对话系统：模块化方法 • 模块化 - Task Oriented Dialogue System (TOD) • 主要挑战 • 单领域定制成本高 • 跨领域困难帮我订一家南山区的浪漫有情调的西餐厅，人均价格不要超过300 推荐BrownStone，西班牙菜，人均214，你觉得如何？可以，帮我预定2人位置 NLU, State- Tracking NLG Goal: Booking_Restaurant Slots: Area: Nanshan Style: Romantic, Western Price: <300 Dialogue Manager Action: Recommend_Restaurant Goal: Booking_Restaurant Slots: Area: Nanshan Style: Romantic, Western Price: <300 Restaurant_Name: Brown Stone Persons: 2

6. 对话系统：召回式 • 匹配一个对话语料库中已有回复 • 主要挑战 • 回复质量完全受限于语料库 • 场景越复杂越难以匹配 • 多轮对话效果难以满足 Bartl, Alexander, and Gerasimos Spanakis. "A retrieval-based dialogue system utilizing utterance and context embeddings." 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2017.

7. 技术背景：生成式 • 利用生成模型（尤其是AutoRegressive 方式）直接生成回复 • 挑战 • 效果差 • 内容空洞 • 可控性差 Shang, Lifeng, et al. "Neural responding machine for short-text conversation.” (2015) Serban, I., Sordoni, A., Bengio, Y., Courville, A., & Pineau. Building end-to-end dialogue systems using generative hierarchical neural network models. AAAI (2016) 生成式对话系统尽管不会被预先定义的语料限制，但效果一直远差于召回式，直到 Transformer出现之后，情况才开始改变

8. 技术背景：问题和挑战 • 垂类对话系统 • 单领域定制成本高 • 跨领域对话困难 • 闲聊系统 • 无目标 • 内容空洞、无吸引力 • 常用作兜底帮我推荐一家餐厅请问要什么价位的？ …… 这家餐厅能停车么，地铁能直达么 How many eyes does my foot have? 我脚上有几只眼睛？ Your foot has two eyes. 你脚上有两只眼睛目前无法理解和回答你的问题难以跨领域（任务对话系统） Are you any good at ping pong? No I am not. 无信息（Meena, 2020）无常识无逻辑（GPT-3, 2020）我失恋了，感觉整个世界都塌了不就失个恋吗?多大点事儿无感情

9. 技术背景：问题和挑战 • 开放域对话系统 ≠ 闲聊 • 开放域对话系统 ≠ 任务式垂类帮我推荐一家餐厅请问要什么价位的？ …… 这家餐厅能停车么，地铁能直达么 How many eyes does my foot have? 我脚上有几只眼睛？ Your foot has two eyes. 你脚上有两只眼睛目前无法理解和回答你的问题难以跨领域（任务对话系统） Are you any good at ping pong? No I am not. 无信息（Meena, 2020）无常识无逻辑（GPT-3, 2020）我失恋了，感觉整个世界都塌了不就失个恋吗?多大点事儿无感情

10. 百度PLATO发展历史百度发布PLATO 110M参数首个高性能隐空间增强的开放域对话模型 2019.10 2019.11 2020.01 Microsoft DialoGPT 117M, 345M, 762M 参数英文对话模型 Google Meena 2.6B 参数英文对话模型 PLATO-2 1.6B 参数中英文对话模型 2020.04 Facebook Blender 2.7B, 9.4B 参数英文对话模型 2020.08 PLATO-XL 11B 参数中英文对话模型 2021.10

11. 百度PLATO希望解决哪些问题？ • 内容 – 言之有物，能提供信息 • 逻辑 – 上下自洽，符合常识 • 主动性 – 主动引导话题 • 人格人设 - 机器具有稳定的人格人设并且能正确反应在其行为上 • 记忆&长期记忆 – 能正确且长期记忆过去自己说过和对方说过的内容 • 正确价值观 – 观点态度符合正常价值观 • …

12. 对话系统：数据驱动的挑战中国的首都是___ 我讨厌披萨翻译成英文___ 外面在下雪。？？？？？？

13. 对话系统：数据驱动的挑战对话个人背景知识背景性格发生语境和对方关系当前意图 …

14. 对话系统：数据驱动的挑战 • 多样性是对话的关键问题 • 神经网络擅长处理1对1的映射，不擅长1对N的映射外面在下雪。堆个雪人怎么样？挺好的好冷，我真怀念夏天。不想出门生成式模型建模多样性强的语料时，容易失控，或者学习到相对概率高但内容少的生成方式，通常被称为“安全回复” Case 1: 你今年多大？ 31；你今年几岁？ 15 Case 2: 同一个问题，两次推理出截然相反的答案

15. 百度PLATO：利用隐空间建模潜在多样性 Bao, Siqi, et al. "Plato: Pre-trained dialogue generation model with discrete latent variable." ACL 2020

16. 百度PLATO：利用隐空间建模潜在多样性 Bao, Siqi, et al. "Plato: Pre-trained dialogue generation model with discrete latent variable." ACL 2020

17. 百度PLATO：利用隐空间建模潜在多样性 Chen, Chaotao, et al. “Generating multiple diverse responses with multi-mapping and posterior mapping selection.”, IJCAI 2019

18. 百度PLATO：出色的内容/逻辑表现 • 在合理性，丰富度，吸引度三个指标上，全面领先 • 首次采用10轮连续对话的图灵测试评估，全面领先 • DSTC-9， DSTC-10两届多个榜单榜首，被主办方高度评价Surprising !"#$%&' ()*(+(),-./ 100.00% 1.6B 90.00% 80.00% 314M 70.00% 60.00% 50.00% 93M 40.00% 30.00% !"# $%& '() 11B

19. 百度PLATO：出色的内容/逻辑表现你脚上的眼睛是什么颜色的？我脚上没有眼睛那你的额头上有吗？ What is the purpose of our space exploration program? 我们太空探索计划的目的是什么呢？ The primary purpose of space exploration is to study and understand our universe. 太空探索的主要目的是研究和了解我们的宇宙。额头也没有，只有头发你头发有多少根？数不清，太多了那你知道有谁额头上长眼睛的吗？你在说二郎神吗？ That is a great reason. What is your favorite part of space exploration? 这是一个很好的理由。你最喜欢太空探索的哪个部分呢? I like the discovery of exoplanets. It's exciting to think that there are other habitable planets out there. 我喜欢发现系外行星。想到外面还有其他可居住的行星真是令人兴奋。

20. 百度PLATO解决了哪些挑战？ • 内容 – 言之有物，能提供信息 • 逻辑 – 上下自洽，符合常识 • 主动性 – 主动引导话题 • 人格人设 - 机器具有稳定的人格人设并且能正确反应在其行为上 • 记忆&长期记忆 – 能正确且长期记忆过去自己说过和对方说过的内容 • 正确价值观 – 观点态度符合正常价值观 • … 隐空间，大模型，大语料，可以一定程度解决上下文逻辑，内容，但对于人格，人设，长期记忆，正确价值观则尚未解决

21. 静态数据的局限性人类演示数据动作模仿

22. 静态数据的局限性静态数据人机交互场景机机交互场景

23. 静态数据的局限性 • 内容重复（现有主流方法往往通过Decoding策略解决） • 话题难以深入 • 由于极端上文（Context）触发导致回复失控 • 多轮控制上的其他问题 …

24. 静态数据学习 vs. 交互式学习离线数据监督学习交互数据强化学习/交互式学习

25. 交互式学习： Sim2Real迁移方法 • 在真实世界中交互和学习的成本和风险不可控 • 使用虚拟环境替代真实环境广泛用于强化学习训练虚拟环境交互数据

26. 元宇宙和AI 辅助训练 • 更低干涉成本和试错成本 • 更低数据（特别是交互式数据）获取成本

27. 基于交互式数据训练的方法 Human-In-The-Loop AI Self-Play 成本大获取反馈难成本低学习目标不明确

28. 是否可能为对话设立一个可计算的目标？通过交流实现相互了解 – 不失为一个合理的目标，但开放域对话的目标的量化和开放域对话本身一样难 Bao, Siqi, et al. "Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.

29. 对话最终目标 – 通过对话协作完成复杂任务 • 多智能体（Multi-Agent）协作问题 • 共享观测量 • 不共享观测，允许语言和符号交流

30. Referential Games – 学习对话的协作游戏

31. 自然语言出现 Havrylov, Serhii, and Ivan Titov. "Emergence of language with multi-agent games: learning to communicate with sequences of symbols." Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017.

32. 如何约束自然语言？ • 自然语言出现通常演化出全新的未知语言 • 如何让机器产生人类可以理解的语言？ • 通过预训练，使得语言生成和理解器先学会人类的语言 • 在训练过程中，引入对生成语言的约束 • 在训练中，引入Human-in-the-loop

33. 基于动态搭配的自然语言出现学习 Gupta, Abhinav, Marc Lanctot, and Angeliki Lazaridou. "Dynamic population-based meta-learning for multi-agent communication with natural language." Advances in Neural Information Processing Systems 34 (2021).

34. 未来可能方向：基于社区的对话演进 • 通过大规模AI-人类混合虚拟社区的训练，进一步促进AI对话能力的提升

35. 元宇宙和AI – 未来培育迁移

36. Thank You

对话系统： 从经验驱动到数据驱动到环境驱动

对话系统： 从经验驱动到数据驱动到环境驱动

对话系统：从经验驱动到数据驱动到环境驱动

对话系统：从经验驱动到数据驱动到环境驱动