推荐系统的基本问题及系统优化路径
如果无法正常显示,请先停止浏览器的去广告插件。
1. 推荐系统基本问题
及系统优化路径
刘志强
奇虎科技(360) 视频信息流推荐算法负责人
2.
3. • 推荐系统构成与基本问题识别
• 资源画像与用户理解的相互依赖
• 关于多目标之间的融合问题讨论
• 评估挑战——AB可测与不可测
4. 推荐系统构成与基本问题
用户
① 推荐策略与用户反馈闭环
①
广义推荐系统
平台
狭义推荐系统
②
内容
② 内容生态与分发反馈闭环
5. 推荐系统构成与基本问题
用户
平台
内容
6. 推荐系统构成与基本问题
客观
主观
显性
实体
主题
内容理解
用户理解
隐式
精准
领域
功能
场景
7. 推荐系统构成与基本问题
用户行为理解
召回1
召回2
资源
池
排序
召回3
…
召回N
内容理解
重排
8. 推荐系统整体框架设计
9. 推荐系统的主要基本问题
资源侧 用户侧 目标侧 系统侧
新冷资源启动 兴趣记忆变迁 可解释型优化 推荐系统偏置
内容生命周期 实时意图捕捉 多目标间平衡 逐层交叉依赖
资源流量分布 主要兴趣覆盖 长/短期兼顾 可评估性挑战
潜在兴趣探测
10. 资源流转与用户转化过程
兴趣用户
黏性用户
③
②
① 基于兴趣用户的新资源试投
①
新资源
② 基于优质资源的冷用户转化
优质资源
新用户
③ 基于优质资源的潜在兴趣拓展
11. 内容生命周期与资源池优化
重复/淘汰
淘汰、过期、删除
下线
资源池迭代逻辑:
审核
试投
① 资源以一定概率优于所属类型其他资源
优质池
循环投放
② 资源越老,则条件越严格、新资源相对宽松
③ 特殊资源具有霸占资源池优先特权
④ 形式化表达如下:
内容理解
资源优质度预估
12. 关于内容理解的技术抽象
语义化体系
semantic
义
定
与
别
识
题
问
模型化解读
modeling
g
n
i
k
n
i
Th
系统
基础表征
representation
工程
化
En
gin
ee
rin
g
需求识别与设计 落地与持续进化
Desire
recognition
&
Solution design Implementation
&
continuous
improvement
13. 基于实体强化的语义向量化
①mlm
奥
特
曼
clustering
to topics
latent semantic
representation
② NER
pooling
MLP
(BIOE)
Transform Encode Block
(by N layers)
B
I
E
O
O
O
O
O
O
MMM 光明与黑暗的大碰撞!你支持谁?
奥特曼 光明与黑暗的大碰撞!你支持
谁?
语料生成
Double Check
14. 实时跟随与资源协同
资源协同的三架马车:
内容
协同
后验
强化
行为
共现
15. 实时跟随与资源协同
Clicked url …
Based url …
1 0 0 0 0
优势:
1. 确保内容一致性
2. 过滤误召回关联
Enhanced Content
Collaborative Filtering
3. 强化有效内容关联
4. 扩展内容关联
Embedding layer
negative sampled
16. 实时跟随与资源协同
…
Click Session
�(� � |� � ) ∼ �(0,1)
⊗
� �,�
�(� � |� � )
Add &
Norm
MLP MLP
Add &
Norm
Content Embedding
17. 序列编码与推荐
�:
�(�|� ¬� )
�
Why “x”
here
Maximum p(x)
given context
1. 非独立假设
2. 重要性贡献不同
3. 互为依赖形成聚合
find back
take away
4. 多层多粒度依赖
18. 序列编码与推荐
Offline Train:
Near line Inference:
real-time click logs
output & softmax
qbus
Transformer Blocks
Layer normalization
L2
mask padding
Inference
Severing
Embedding layer
TopK
Recom urls
19. 主题兴趣的序列化与长期记忆
…
随机先验
用户
兴趣
资源
每一个模型都是下一个模型的先验
长期兴趣
20. 资源协同与主题自动聚合
21. 基于消息队列的实时推荐流程
22. 非一致多目标之间的冲突与融合策略
多目标的构成:
基本原则:
目标行为类型
融合策略:
基础表达共享 同级间线性加权
目标间依赖控制 漏斗间敏感区间分段依次排序
分场景定制融合
漏斗转化路径
待排候选
模型框架:
label1
得分敏感区间识别:
label2
label3
Ori_Auc :0.8514
Seg_Auc:0.8492
基础表达
23. 评估挑战——AB的可测与不可测问题
AB实验的三个阶段:
主要问题:
1. 新模型在旧语料学习得到
Base Data
Base Model
New Base
2. 扩量阶段导致语料发生变化
3. 语料变化影响旧模型效果
New Data
Test Model
严格可测条件:
① ② ③
小流量阶段 扩量阶段 留量观察阶段
1. 不迭代、少摇摆
2. 单变量、可衡量
24. 评估挑战——AB的可测与不可测问题
用户分群:
资源分布:
类型多
无主型
博爱型
淘汰型
行为多
行为少
高冷型
大众
模型自身的
可解释性
冷
热
高潜型
专一型
类型少
偏置型
模型效果的
可解释性
宝贵型
小众
25. 我们看到的数据只是结果,建模的目的在于还原数据生成
的过程,而非描述数据最后的样子
—— 佚名
26.
27.
28.
29.