对话系统: 从经验驱动到数据驱动到环境驱动
如果无法正常显示,请先停止浏览器的去广告插件。
1. 对话系统 – 从经验驱动到数据驱动到环境驱动
王凡
2. 对话系统: 意义
•
•
AI前沿角度
• 艾伦·麦席森·图灵 : 对话本身就是检验“机器能否思考”的重要标准
• 在当代, 能否像人类一样对话是AI发展重要标志
实用主义角度
• 搜索系统 – 用户完全主动, 服务提供方完全被动
• 推荐系统 – 用户完全被动, 服务提供方完全主动
• 对话系统 – 用户和服务提供方交互
•
可动态切换被动和主动
3. 对话系统:发展史
百度PLATO-2模型
(2020)
音箱助理
Alexa
(2014)
手机助理 Siri
(2011)
Xerox GUS
(1977)
百度
度秘
(2015)
POMDP
对话管理模型
(2005)
Pandorabots
对话AI开发平台
(2008)
深度学习方法
模块化和统计方法
基于规则的方法
百度PLATO模型
(2019)
百度
UNIT
端到端
(2017)
任务式对话
(2016)
ALICE进行图灵
测试
(1995)
MIT Eliza
(1966)
神经网络对话模
型(2015)
超大规模
对话模型
Meena
(2020)
4. 对话系统: 专家经验和规则
ELIZA
• 由MIT工程师 Joseph Weizenbaum在1966设
计
• 世界第一个聊天机器人
• 可以模拟心理治疗师同患者进行聊天
符号主义和专家系统的AI设计
方法曾在1960~1970达到顶峰;
曾经大多数人认为,通过这些
逻辑运算规则可以最终实现类
人AI,但是1980年代之后沉寂,
现在大家已经基本否决了通过
专家经验达到AGI的可能性
5. 对话系统:模块化方法
• 模块化 - Task Oriented Dialogue System (TOD)
• 主要挑战
• 单领域定制成本高
• 跨领域困难
帮我订一家南山区的浪
漫 有 情 调 的 西 餐 厅, 人
均价格不要超过300
推荐BrownStone,西班牙菜,
人均214,你觉得如何?
可以,帮我预定2人位置
NLU,
State-
Tracking
NLG
Goal: Booking_Restaurant
Slots:
Area: Nanshan
Style: Romantic, Western
Price: <300
Dialogue
Manager
Action:
Recommend_Restaurant
Goal: Booking_Restaurant
Slots:
Area: Nanshan
Style: Romantic, Western
Price: <300
Restaurant_Name: Brown
Stone
Persons: 2
6. 对话系统:召回式
• 匹配一个对话语料库中已有回复
• 主要挑战
• 回复质量完全受限于语料库
• 场景越复杂越难以匹配
• 多轮对话效果难以满足
Bartl, Alexander, and Gerasimos Spanakis. "A retrieval-based dialogue system utilizing utterance and context embeddings." 2017 16th IEEE
International Conference on Machine Learning and Applications (ICMLA). IEEE, 2017.
7. 技术背景: 生成式
• 利用生成模型(尤其是AutoRegressive
方式)直接生成回复
• 挑战
• 效果差
• 内容空洞
• 可控性差
Shang, Lifeng, et al. "Neural responding machine for short-text conversation.” (2015)
Serban, I., Sordoni, A., Bengio, Y., Courville, A., & Pineau. Building end-to-end
dialogue systems using generative hierarchical neural network models. AAAI (2016)
生成式对话系统尽管不会被预
先定义的语料限制,但效果一
直远差于召回式,直到
Transformer出现之后,情况才
开始改变
8. 技术背景: 问题和挑战
• 垂类对话系统
• 单领域定制成本高
• 跨领域对话困难
• 闲聊系统
• 无目标
• 内容空洞、无吸引力
• 常用作兜底
帮我推荐一家餐厅
请问要什么价位的?
……
这家餐厅能停车么,地铁能直达么
How many eyes does my foot have?
我脚上有几只眼睛?
Your foot has two eyes.
你脚上有两只眼睛
目前无法理解和回答你的问题
难以跨领域(任务对话系统)
Are you any good at ping pong?
No I am not.
无信息(Meena, 2020)
无常识无逻辑 (GPT-3, 2020)
我失恋了,感觉整个世界都塌了
不就失个恋吗?多大点事儿
无感情
9. 技术背景: 问题和挑战
• 开放域对话系统 ≠ 闲聊
• 开放域对话系统 ≠ 任务式垂类
帮我推荐一家餐厅
请问要什么价位的?
……
这家餐厅能停车么,地铁能直达么
How many eyes does my foot have?
我脚上有几只眼睛?
Your foot has two eyes.
你脚上有两只眼睛
目前无法理解和回答你的问题
难以跨领域(任务对话系统)
Are you any good at ping pong?
No I am not.
无信息(Meena, 2020)
无常识无逻辑 (GPT-3, 2020)
我失恋了,感觉整个世界都塌了
不就失个恋吗?多大点事儿
无感情
10. 百度PLATO发展历史
百度发布PLATO
110M参数
首个高性能隐空间增强的开放域对话模型
2019.10
2019.11
2020.01
Microsoft DialoGPT
117M, 345M, 762M 参数
英文对话模型
Google Meena
2.6B 参数
英文对话模型
PLATO-2
1.6B 参数
中英文对话模型
2020.04
Facebook Blender
2.7B, 9.4B 参数
英文对话模型
2020.08
PLATO-XL
11B 参数
中英文对话模型
2021.10
11. 百度PLATO希望解决哪些问题?
• 内容 – 言之有物,能提供信息
• 逻辑 – 上下自洽,符合常识
• 主动性 – 主动引导话题
• 人格人设 - 机器具有稳定的人格人设并且能正确反应在其行为上
• 记忆&长期记忆 – 能正确且长期记忆过去自己说过和对方说过的内容
• 正确价值观 – 观点态度符合正常价值观
• …
12. 对话系统:数据驱动的挑战
中国的首都是___
我讨厌披萨翻译成英文___
外面在下雪。
??
??
??
13. 对话系统:数据驱动的挑战
对话
个人背景
知识背景
性格
发生语境
和对方关系
当前意图
…
14. 对话系统:数据驱动的挑战
• 多样性是对话的关键问题
• 神经网络擅长处理1对1的映射,不擅长1对N的映射
外面在下雪。
堆个雪人怎么样?
挺好的
好冷,我真怀念夏天。
不想出门
生成式模型建模多样性强的语
料时,容易失控,或者学习到
相对概率高但内容少的生成方
式,通常被称为“安全回复”
Case 1: 你今年多大? 31; 你今年几岁? 15
Case 2: 同一个问题,两次推理出截然相反的答
案
15. 百度PLATO:利用隐空间建模潜在多样性
Bao, Siqi, et al. "Plato: Pre-trained dialogue generation model with discrete latent variable." ACL 2020
16. 百度PLATO:利用隐空间建模潜在多样性
Bao, Siqi, et al. "Plato: Pre-trained dialogue generation model with discrete latent variable." ACL 2020
17. 百度PLATO:利用隐空间建模潜在多样性
Chen, Chaotao, et al. “Generating multiple diverse responses with multi-mapping and posterior mapping selection.”, IJCAI 2019
18. 百度PLATO:出色的内容/逻辑表现
• 在合理性, 丰富度, 吸引度三个指标上,全面领先
• 首次采用10轮连续对话的图灵测试评估,全面领先
• DSTC-9, DSTC-10两届多个榜单榜首, 被主办方高度评价Surprising
!"#$%&' ()*(+(),-./
100.00%
1.6B
90.00%
80.00%
314M
70.00%
60.00%
50.00%
93M
40.00%
30.00%
!"#
$%&
'()
11B
19. 百度PLATO:出色的内容/逻辑表现
你脚上的眼睛是什么颜色的?
我脚上没有眼睛
那你的额头上有吗?
What is the purpose of our space exploration program?
我们太空探索计划的目的是什么呢?
The primary purpose of space exploration is to study
and understand our universe.
太空探索的主要目的是研究和了解我们的宇宙。
额头也没有,只有头发
你头发有多少根?
数不清,太多了
那你知道有谁额头上长眼睛的吗?
你在说二郎神吗?
That is a great reason. What is your favorite part of
space exploration?
这是一个很好的理由。你最喜欢太空探索的哪个部分呢?
I like the discovery of exoplanets. It's exciting to think
that there are other habitable planets out there.
我喜欢发现系外行星。想到外面还有其他可居住的行星真是令人兴奋。
20. 百度PLATO解决了哪些挑战?
• 内容 – 言之有物,能提供信息
• 逻辑 – 上下自洽,符合常识
• 主动性 – 主动引导话题
• 人格人设 - 机器具有稳定的人格人设并且能正确反应在其行为上
• 记忆&长期记忆 – 能正确且长期记忆过去自己说过和对方说过的内容
• 正确价值观 – 观点态度符合正常价值观
• …
隐空间,大模型,大语料,可
以一定程度解决上下文逻辑,
内容,但对于人格,人设,长
期记忆,正确价值观则尚未解
决
21. 静态数据的局限性
人类演示数据
动作模仿
22. 静态数据的局限性
静态数据
人机交互场景
机机交互场景
23. 静态数据的局限性
• 内容重复 (现有主流方法往往通过Decoding策略解决)
• 话题难以深入
• 由于极端上文(Context)触发导致回复失控
• 多轮控制上的其他问题 …
24. 静态数据学习 vs. 交互式学习
离线数据
监督学习
交互数据
强化学习/交互式学习
25. 交互式学习: Sim2Real迁移方法
• 在真实世界中交互和学习的成本和风险不可控
• 使用虚拟环境替代真实环境广泛用于强化学习训练
虚拟环境
交互数据
26. 元宇宙和AI
辅助
训练
• 更低干涉成本和试错成本
• 更低数据(特别是交互式数据)获取成本
27. 基于交互式数据训练的方法
Human-In-The-Loop AI Self-Play
成本大
获取反馈难 成本低
学习目标不明确
28. 是否可能为对话设立一个可计算的目标?
通过交流实现相互了解 – 不失
为一个合理的目标,但开放域
对话的目标的量化和开放域对
话本身一样难
Bao, Siqi, et al. "Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment." Proceedings of the
57th Annual Meeting of the Association for Computational Linguistics. 2019.
29. 对话最终目标 – 通过对话协作完成复杂任务
• 多智能体(Multi-Agent)协作问题
• 共享观测量
• 不共享观测,允许语言和符号交流
30. Referential Games – 学习对话的协作游戏
31. 自然语言出现
Havrylov, Serhii, and Ivan Titov. "Emergence of language with multi-agent games: learning to communicate with sequences of
symbols." Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017.
32. 如何约束自然语言?
• 自然语言出现通常演化出全新的未知语言
• 如何让机器产生人类可以理解的语言?
• 通过预训练,使得语言生成和理解器先学会人类的语言
• 在训练过程中,引入对生成语言的约束
• 在训练中,引入Human-in-the-loop
33. 基于动态搭配的自然语言出现学习
Gupta, Abhinav, Marc Lanctot, and Angeliki Lazaridou. "Dynamic population-based meta-learning for multi-agent communication with natural
language." Advances in Neural Information Processing Systems 34 (2021).
34. 未来可能方向: 基于社区的对话演进
• 通过大规模AI-人类混合虚拟社区的训练,进一步促进AI对话能力的提升
35. 元宇宙和AI – 未来
培育
迁移
36. Thank You