引言
净推荐值(Net Promoter Score,以下简称 NPS)是 ToC 企业中应用得最广泛的用户满意度衡量指标。通过分析“客户是否愿意向朋友推荐我们的产品”,我们可以检测到用户对企业的认同度与未来的留存率。在爱彼迎,我们同样长期关注这一指标,用以衡量我们为房东、房客社区提供的客户服务品质。
然而在产品快速迭代的今天,传统的 NPS 指标也显现出自身的一些不足。由于 NPS 分数依赖于用户对问卷的反馈,它会不可避免地引入选择性偏差、数据延迟、低覆盖率等问题。这也导致我们几乎无法在短期的 A/B Testing 中使用 NPS 来衡量用户服务端产品的迭代效果。
为了解决这一问题,爱彼迎开发了基于 AI 模型的情绪识别方法,通过分析用户与客服团队对话文本中的情绪变化,来衡量用户此时此刻的满意度状态。在今天的文章中,我们将详细地介绍爱彼迎在情绪识别模型上的开发,以及我们如何一步步将模型生成的结果转化为一个能与企业长期留存率挂钩的高覆盖率、无延迟的新型满意度衡量指标。
情绪识别模型
在对话场景中,识别文本背后蕴含的用户情绪已经被广泛地运用于许多互联网应用中。在爱彼迎,为了更好地提升产品品质和社区服务,我们尤其重视用户在获取帮助过程中的情绪信号。
然而在客户服务领域,情绪识别模型的开发有三个主要的挑战:
客服语境的特殊性:相同的语句在不同的语境下所表达的情绪往往千差万别。而客服作为一个极特殊的领域,在识别用户的正向、中性、负向情绪时,要根据该领域的语境特点来对数据及模型做额外的调整。
偏态分布的数据:与传统的评价类、普通对话类数据集不同的是,客户服务中用户的情绪多数是负向的。当用户们联系爱彼迎客服时,很多时候是在使用中遇到了问题或不好的体验。
多语言环境:由于爱彼迎在全球业务的发展,我们的客服团队支持14种语言。尤其在出境游订单中,房东与房客很可能会使用不同的语言与客服进行对话,这也给模型的开发带来了更大的挑战。
为了让情绪识别模型更适用于客服业务,我们定制了一套打分系统来让模型学习这一领域的特定知识以及上下文语境。比如,同样的对话在客服环境和社交媒体评论中,可能代表的情绪方向是完全不同的。在客服语境中,如果用户的问题最终得到了解决,那么多为正向情绪;而如果解决问题的过程受阻且曲折,用户则会产生负面情绪。
而在解决偏态分布的数据集问题时,我们通过主动学习(active learning)对人工注释的采样数据进行多次迭代,并使用新标记的数据来重新训练模型。第一轮标注数据基于随机抽样进行,后续标注数据则根据现有模型预测进行分层再采样,从而获得了分布更均衡的数据集用以进行后续的模型训练。
在此基础上,我们构建并测试了两种深度学习架构,它们都支持多语言的语境:
WIDeText 使用 CNN-based 的架构来处理文本通道,而所有分类特征都通过 WIDe 通道来处理
XLM-Roberta 则使用 Transformer-based 的架构,并利用预先训练好的多语言模型来满足客服中 14 种不同语言的模型需求
WIDeText Architecture
Transformer Architecture
我们发现,基于 Transformer 的模型在英语类文本的情感分析上表现得稍好一些,而在不太常用的语言上的表现显著高于 WIDeText 模型。最终我们选择了基于 Transformer 的分类模型来投入对客服文本的分析。
平均精度 | WIDeText | ||
英语文本 | 0.77 | 0.87 | 0.89 |
中文文本 | 0.84 | 0.89 | 0.92 |
非英语 (其他14类) | 0.75 | 0.81 | 0.88 |
用户情绪指标
尽管如此,原始的模型情绪分数并不能直接应用于业务分析中。因此,我们在文本级别(message-level)的模型输出基础上,进一步整合并开发了用户问题级别(issue-level)的情绪指标,并通过以下几个纬度来衡量新指标的综合表现:
是否与原 NPS 存在强相关性
是否在 A/B Testing 实验中具有高灵敏度
是否能与长期业务收益(如未来的留存)建立可证的因果关系
与NPS的相关性…
尽管 NPS 存在自身的局限性,它仍然被认为是衡量用户满意度的黄金标准。在整合文本级别的情绪数据时,我们尝试了多种整合方法(如采用多条信息中情绪分数的均值、斜率、临界值、权重加总等),最终在房东、房客端的客服对话中,与 NPS 达到了极高的拟合度:
房客端NPS(绿色)与用户情绪指标(橙色)
房东端NPS(绿色)与用户情绪指标(橙色)
实验中的灵敏度…
当大多数功能的上线都依赖于 A/B 测试的结果时,指标的灵敏度极大程度地决定了产品迭代的速度。为了衡量用户情绪分数是否能在真实的实验中更快收敛,我们选取了过去的两个场景下的实验数据,来模拟情绪分数的准确程度以及收敛速度。
场景 1 - NPS 无变化的实验
在线下用户的调研中,我们发现曾经上线的一款功能给用户带来了较差的体验(用户需要采取更多步骤才能联系到人工客服)。此前在该产品的线上控制实验中,尽管我们留出了近一个月的实验时间,也并没有检测到任何显著的 NPS 的变化。
然而当我们将情绪分数带入该实验的样本中时,不到 5 天的数据就能够检测到用户显著的负面情绪。
场景 2 - NPS 收敛的实验
第二类模拟的实验,是在我们已经检测到 NPS 变化的前提下,探索情绪分数与 NPS 相比的收敛速度。例如,我们曾测试过一款客服智能聊天机器人的功能,在实验开始后十多天内观测到了负向变化的 NPS。当我们带入情绪分数时,发现它显著收敛得更快,在第五天就已经达到统计学显著的结果。
与长期业务指标的因果关系…
处在一个相对低频的旅游行业中,如何衡量用户的留存率及用户生命周期价值(LTV),一直是爱彼迎业务团队的一大难题。尤其是在提升用户体验的产品改动中,我们时常在提升用户满意度所增加的成本,和留存下来的用户所创造的长期价值之间寻求一个平衡点。
由于 NPS 的低覆盖率问题,过去我们始终难以量化客服质量与用户未来价值之间的因果关系。在搭建好情绪指标后,我们首次通过 Entropy Balancing 这一创新的因果推断的方法回答了这一问题。
因果推断方法
与普通产品功能的测试不同,客服的质量变化几乎无法通过分组实验来获得。一则将用户随机分组,给他们提供两种优劣不同的服务违背了我们的原则,而且难以操作;二则我们也无法在较短的实验周期内,检测到未来半年、乃至一年的留存变化。为此,我们探索了因果推理技术:通过历史观察数据,来检测用户在正向、负向两种情绪变化下,未来一年在爱彼迎平台上的订单金额的差别。
尽管我们能够很容易地将有过正向、负向两种情绪的用户分为“实验组”与“对照组”,却不能直接对比这两组在未来预订表现的区别。因为这两组用户可能在自身特质、对平台的忠诚度、对客服的容忍度上有着本质上的差异,而这些潜在的混杂因素,会导致我们在衡量客服质量本身对未来预订的影响上产生偏差。
例如,历史订单较多的用户往往对平台更加偏爱,他们在遇到问题时与社区代表的沟通会更加积极主动,在情绪分数中的表现也比较好,而未来再预订的数量也自然会比其他房客更高。这种情况下,历史订单就是一个需要控制的因素。为了找到并控制这些混杂因素,我们进行了几轮筛选与迭代。在列出用户账号特点、过往订单数量及订单金额、客服联系习惯等多方面潜在的混杂变量后,我们检查了其与用户情绪及未来预订行为的相关性,并对所有变量之间进行了交叉筛查去重,最终得到了一个精简后的混杂变量列表。
熵平衡算法(Entropy Balancing)
下一步则是衡量满意度高低所导致的未来预订金额的变化。行业中因果推断的算法非常多,我们尝试的是斯坦福大学 Jens Hainmueller 教授在 2012 年发表的 Entropy Balancing 方法。它通过调整每个单位的权重,在满足一系列控制条件前提下,使得实验组与对照组在协变量上的分布一致,来创造两个可比的样本组。
与更广为人知的 Propensity Score Matching 这类匹配算法相比,Entropy Balancing 有以下几个优势:
即使是高阶矩(high degrees of moments),也能达到很好的平衡效果
以 PSM 为代表的匹配算法,往往需要多次迭代及手动调整来克服选择偏差。当遇到高维样本或需要得到高阶矩均衡时,往往容易失败。而 Entropy Balancing 是通过直接搜索一个权重指数,来达到有限样本中的绝对均衡。它在显著提高协变量的分布一致性上多次得到了行业实践的验证,例如保险行业中的应用:Matschinger(2019)。
它避免了丢弃样本,最大程度上保留了数据信息
与匹配方法不同,Entropy Balancing 无需舍弃找不到合适匹配对象的样本,而是通过分配不同的权重来最大限度地留存数据。
高度的灵活性
我们得到的权重(weights)几乎可以用于任何标准的 Treatment Effect 的估计方法中,例如加权平均和加权回归。
计算成本低
一百万行数据集大小的前提下,该算法只需几分钟即可搜索到合适的单位权重。
所有混杂变量在加权后获得平衡的结果
通过加权后的结果,我们发现爱彼迎上对客服满意度更高的客人(情绪指标 >= 0.1,良好的客服体验)在随后的 12 个月中为平台带来的订单收入显著增加。
目前,情绪指标已经被广泛应用于爱彼迎在客户服务产品的实验迭代中。它与未来订单收入间的量化关系,也极大地帮助我们在面对客服质量提升与运营成本增加的冲突时,做出更长远、更正确的决策。
参考文献
1. Jens Hainmueller (2012) Entropy Balancing for Causal Effects: A Multivariate Reweighting Method to Produce Balanced Samples in Observational Studies, Political Analysis, 20:25−46 doi:10.1093/pan/mpr025
2. Herbert Matschinger, Dirk Heider, Hans-Helmut König (2020) A Comparison of Matching and Weighting Methods for Causal Inference Based on Routine Health Insurance Data, or: What to do If an RCT is Impossible,Gesundheitswesen, 82(S 02): S139-S150 DOI: 10.1055/a-1009-6634
作者:Shuai Shao, Mia Zhao, Yuanyuan Ni,译者:Yuanyuan Ni,校对:Yiqi Jia。
作者&译者简介:倪媛媛,爱彼迎数据科学家,从事数据分析行业四年,文能画图讲故事,武能下场修管道,奔三路上,想做一个永远保持好奇、刨根问底、中立且清醒的数据码工。
如果你想了解关于爱彼迎技术的更多进展,欢迎关注我们的 Github 账号(https://github.com/airbnb/) 以及微信公众号(爱彼迎技术团队)。