因果推断在快手推荐场景的应用探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. 因果推断在快手推荐
场景的应用探索
赵炜琪 快手
2. 目录 CONTENT
01 背景 03 因果推断在快手的应用
02 最新研究进展 04 总结 & 思考
3. 01
背景
4. 背景
p 推荐系统的偏差
• 来源: 训练推荐模型的数据大多为观测数据
• 本质: 对于经验风险函数估计的期望和真实理想的风险函数期望之间的差异
p 推荐系统常见的偏差
• 选择性偏差 (selection bias): 在建模过程中因样本选择的非随机性而导致得到的结论存在偏差
• 流行度偏差 (popularity bias): 用户对物品的评价会受到群体意见的影响
• 曝光偏差 (exposure bias): 用户只与推荐系统展示的物品产生交互
• 位置偏差 (position bias): 用户和物品的交互情况可能被物品在推荐列表中的位置所影响
5. 背景
因果性 ≠ 相关性
p
什么是因果推断
• 因果推断主要研究如何更加科学地识别变量之间的因果关系,
• 强调原因的唯一性
p
因果性和相关性
• 因果性:在操作/改变X后,Y随着这种操作/改变也变化,则说明X是Y的因(cause)
• 相关性:在观测到的数据分布中,X与Y相关,如果观测到X的分布,就可以推断出Y的分布
p
因果性和相关性区别
• 相关性通常是对称的,而因果性通常是非对称的,相关性不一定说明因果性
• 因果性一般都会在统计层面导致相关性
• 相关性是被动的观察,因果关系是主动干预
6. 背景
p 为什么需要因果推断
因果推断的三个层次
问题 归类
探索变量之间的关系 关联
实施某项干扰的效果
从结果考虑原因
干扰
反事实推断
应用
常规机器学习
营销/Uplift Model
Matching/因果图建模
7. 背景
p 常用的因果推断方法
u Re-weighting methods
u Matching methods
u Tree-based methods
u Others
Ø Stratification methods
Ø Multitask Learning Methods
Ø Meta-Learning Methods
8. 02
最新研究进展
9. Work#1: DICE (WWW21) Motivation
p 因果图:
• 流行度和兴趣是分别独立的
• 在特定的点击下他们具有一定的关联关系,如点击流行度低的
商品更能反应用户的兴趣
p 数据集构造< u, pos_item, neg_item >
• Int dataset: pos_item 流行度小于 neg_item
• Con + Int dataset: pos_item 流行度大于 neg_item
p 不同数据集分别学习不同的Eembedding
Zheng et al. WWW21. Disentangling User Interest and Conformity for Recommendation with Causal Embedding
10. Work#1: DICE (WWW21) Method
p 数据集切分
构建pairwise样本,并根据positive item与negative item的流行度强弱划分数据
p Multi-task Learning
Zheng et al. WWW21. Disentangling User Interest and Conformity for Recommendation with Causal Embedding
11. Work#2: DIB (Huawei recsys 21) Motivation
p 因果图:
Instrumental Variables: 运营规则
Confounder Variables: 前序模型特征
Adjustment Variables: 上下文特征
Liu et al. recsys 21. Mitigating Confounding Bias in Recommendation via Information Bottleneck
12. Work#2: DIB (Huawei recsys 21) Method
p 基于互信息建模:
1: 由于输入变x有偏,无偏表征z不能过度拟合输入变量
2: 无偏表征z要尽可能准确地预测目标y
3: 无偏表征z要尽可能与有偏表征r区分开,即z与y相互独立
4: 有偏表征r对于y有间接影响,则r在一定程度上能够影响y
a: 表征无偏表征z的预测值与y的交叉熵
b: 表征有偏表征r的预测值与y的交叉熵
c: 整体表征z,r的预测值与y的交叉熵
d: 正则项
Liu et al. recsys 21. Mitigating Confounding Bias in Recommendation via Information Bottleneck
13. Work#3: MACR (KDD2021) Motivation
p 因果图:
• Item popularity
• User conformity
p 解决方案:
Factual world
Counterfactual world
Wei et al. KDD21. Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
Counterfactual world
14. Work#3: MACR (KDD2021) Method
p 建模:
Trian:
Infer:
Wei et al. KDD21. Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
15. Work#4: Mitigating Clickbait (SIGIR2021) Method
p 因果图:
p 解决方案:
Train:
Infer:
Wang et al. SIGIR21. Clicks can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue
16. Work#5: PDA (SIGIR2021) Method
p 因果图:
p 解决方案:
Zhang et al. SIGIR21. Causal Intervention for Leveraging Popularity Bias in Recommendation
17. 03
因果推断在快
手的应用
18. 因果推断在快手的应用#1:流行度debias
p 问题
• 头部效应严重: 热门内容曝光量较大
• 过爆问题:部分高曝光视频的pxtr并远低于高曝光视频的评价pxtr
p 常用的解决方案
• Inverse Propensity Weighting (IPW):给样本加popularity unbias权重。
• Causal Embedding: 用无偏的统一数据来指导模型学习无偏emb,模型对item流行度不敏感。
• 直接建模:直接建模popularity对模型的影响。
Zhang et al. SIGIR21. Causal Intervention for Leveraging Popularity Bias in Recommendation
19. 因果推断在快手的应用#1:流行度debias
p 常用方案尝试结果
p 核心问题
• 头部效应得到缓解 • 流行度偏差确实不利于学习用户真实兴趣
• 没效率收益 • 曝光高的视频内容质量相对较高
• 用户有看热门的需求
p 解决方案
• Train: 去除流行度偏差对模型的负向影响
• Infer: 利用流行度的有益部分
20. 因果推断在快手的应用#1:流行度debias
p 训练阶段
• 通过因果干预方式(do-calculus )去掉流行度对模型的影响
21. 因果推断在快手的应用#1:流行度debias
p 训练阶段:建模P(C |U, I, Z )
• 解藕用户、视频与视频流行度
• Loss Function
22. 因果推断在快手的应用#1:流行度debias
p 训练阶段:建模P(C |U, I, Z ) P(Z )
• 带入P(C |U, I, Z )继续推导
23. 因果推断在快手的应用#1:流行度debias
p infer阶段:注入期望的流行度bias
• infer阶段进行干预
• 最终得分
24. 因果推断在快手的应用#1:流行度debias
p 干预后流行度对item的影响变化
25. 因果推断在快手的应用#1:流行度debias
p 落地改进
• 使用pointwise交叉熵替代pairwise损失函数
• 激活函数使用RELU替代ELU`
• 使用曝光占比之间的梯度替代绝对差值表征流行度变化趋势
• 把控infer阶段注入流行有益部分的内容质量
p 实验中曝光上升/下降较快的case
• 可视化对比试验分析结果
p 曝光上涨较快的视频大多是高质量的视频
p 曝光下涨较快的视频大多是低质量,猎奇类的视频
26. 因果推断在快手的应用#1:流行度debias
p 分布变化
训练阶段对流行度消偏:
• 中低曝光区间的item个数增多
• 中低曝光区间的曝光占比增多
Infer阶段注入期望流行度:
• 高曝光区间的曝光量提升比例较大
p 效率变化
训练阶段对流行度消偏:
• 低曝光区间的emp_pxtr提升更大
27. 因果推断在快手的应用#2:因果表征解偶
p 问题
Ø
用户消费视频的行为主要受两方面影响:
l 从众心理 Conformity: 视频的流行度以及用户对流行度的偏好
l 用户兴趣 Interest: 用户对视频内容的感兴趣程度
p 因果关系
Ø Interest
Ø Conformity
Zheng et al. WWW21. Disentangling User Interest and Conformity for Recommendation with Causal Embedding
28. 因果推断在快手的应用#2:因果表征解偶
p 因果建模
p 数据集构建<user, pos, neg>
Ø Conformity 相关的正负样本:由 like 数定义
Ø Feedback 相关的正负样本:由用户观看时长和互动的综合打分定义
Ø Interest 相关的正负样本:正样本是用户 feedback 但是 conformity 低的样本
29. 因果推断在快手的应用#2:因果表征解偶
p 建模方案
p Loss
30. 因果推断在快手的应用#2:因果表征解偶
p 实验效果
Ø
Conformity 和 Interest 的解耦表征
Ø
Conformity embedding 和流行度的相关性
31. 因果推断在快手的应用#3:视频完播率debias
p 背景
Ø
系统对正样本的定义基于一定的规则:
l 不能很好的拟合不同时长下的正样本判断
l 对于长视频而言这种判断方式偏差较大
Ø 播放完成率(pcr)一般用于衡量用户对于视频的偏好
Ø 短时长视频的pcr普遍高于长时长视频pcr,因此单
独使用pcr来衡量用户对视频的偏好会导致推荐系
统倾向于推短时长视频
p 问题
Ø 正负样本定义
Ø 不同长度视频播放完成度消偏
high
low
32. 因果推断在快手的应用#3:视频完播率debias
p 正负样本定义
• 对各长度视频定义均适用
high
• 具有一定的判别行
mid
• 具有一定的物理意义
low
判别方式:
单条样本播放完成率 VS 统计各长度视频播放完成率
某长度视频的播放完成率与对应播放日志数的关系
33. 因果推断在快手的应用#3:视频完播率debias
p 不同长度视频播放完成度消偏
•
因果推断-Inverser propensity weighting(IPW)
Ø 偏差本质:不同长度视频正负样本分布不均
Ø 使用全部数据计算因果效应
Ø 去除变量在treatment和control组中的分布差异
• Propensity Score 定义
• IPW权重定义
34. 因果推断在快手的应用#3:视频完播率debias
p 不同长度视频播放完成度消偏
•
Loss Function
p 实验效果
• 播放视频数、完播数提升
• 播放完成率提升
不同长度视频完播率相对提升
35. 04
总结 & 思考
36. 总结 & 思考
p 总结
Ø 因果推断在快手信息流推荐成功应用落地
Ø 提供了一套纠偏框架落地pipeline
Ø 从用户维度进行纠偏并取得一定收益
p 问题讨论
Ø 对于一些bias如流行度、曝光偏差,如何掌握好debias的度
Ø 现在的纠偏大多是单点进行,缺少一套完整的纠偏系统
Ø 因果推断能否解决信息茧房难题
37. 非常感谢您的观看