异构混排在vivo互联网的技术实践

1. 异构混排在vivo 互联网的技术实践沈技毅 | vivo互联网高级算法工程师

2. 目录背景介绍信息流混排实践应用商店混排实践未来展望

3.

4. 混排问题定义与挑战问题定义在保障用户体验前提下，通过对不同队列中的异构内容进行合理混合，实现收益最优。混排挑战 • 不同队列item建模目标不同，难以直接对比 • 候选队列常受到大量产品规则约束 • 混排时往往不能修改候选队列的序

5. vivo场景特点与挑战信息流场景商店场景特点特点

6.

7. 信息流混排介绍内容队列混排广告目标

8. 固定位分析内容内容内容广告广告内容内容广告内容内容行业早期混排，以固定位模版为主固定位混排带来三个问题： 1 用户方，偏好场景与非偏好场景同等概率出现 2 3 业务方，流量未精准投放，业务服务效率低平台方，资源错配导致浪费

9. 业界方案调研某商务社交: 用户体验货币化 Organic Content (0,0.13) (0,0.17) (0,0.2) index i Ranked organic items Organic Ranking （1，0.01) （0.9，0.02) (0.8,0.015) index j Position k Feed Request Resuit Ranked Ads Ads (0,0.1) Ranked Organic Content Ranked ads Re-Rank （revenue utility，engagement utility） Eligible ad position? No Yes Ads Ranking (0,0.2) First ad? Yes (1,0.01) Yes No ?? ≠ ??? > ??? ??? ? = ? − ???????????; ??????? ?? No (0,0.2) ??（?? + ???） > ??? 分析 Yes No (1,0.01) (0,0.2) 带约束优化，将用户体验与收入统一度量。只考虑单一item价值，未考虑item间相互影响，未考虑长期收益。

10. 业界方案调研某小视频DEAR：强化学习 Original rea-list reward函数： Ecommender Agent Insert an ad All items to be displayed Advertising Agent 不插入槽位1 槽位1 槽位1 槽位1 槽位1 槽位1 ad1 (ad1, no) (ad1, slot1) (ad1. slot2) (ad1, slot3) (ad1, slot4) (ad1. slot5) (ad1. slot6) ad2 (ad2, no) (ad2, slot1) (ad2. slot2) (ad2, slot3) (ad2, slot4) (ad2. slot5) (ad2. slot6) ad3 (ad3, no) (ad3, slot1) (ad3, slot2) (ad3, slot3) (ad3, slot4) (ad3, slot5) (ad3, slot6) ad4 (ad4, no) (ad4, slot1) (ad4. slot2) (ad4, slot3) (ad4, slot4) (ad4. slot5) (ad4. slot6) ad5 (ad 5, no) (ad5, slot1) (ad5. slot2) (ad5, slot3) (ad5, slot4) (ad5. slot5) (ad5. slot6) 分析强化学习对工程依赖较高，论文中已离线测试为主，缺乏线上的分析。DEAR模型只考虑单广告插入，未考虑多广告情况。

11. 演进过程固定位混排 Qlearning 混排深度解空间型混排

12. Qlearning混排作用机制内容队列 Agent state s ? reward ? ? 广告调权 action ? ? ? ? +? s ? +? 混排系统业务策略融合队列广告队列 Environment Qlearning模型 Qlearning混排作用机制强化学习流程混排机制考虑全页面收益强化学习考虑长期收益，符合多刷场景诉求小步快跑，qlearning快速验证效果

13. Qlearning混排模型设计 Initialize Q table 奖励设计动作设计 Choose an action a ?? ward = ? ∗ log(during) + ? ∗ log(cost) ????? ?????? = ????? ∗ ?????? 全页面粒度权衡用户体验与广告收入 ?????? ∈ (????ℎ? ????? , ????ℎ? ????? ) Perform action 状态设计 Measure reward Update Q 基于状态和行动的新Q值上下文内容侧广告侧广告偏好机型类别类别内容偏好网络 Tag信息 Tag信息性别上一刷信息历史统计信息历史统计信息用户侧 c当前Q值基于状态和行动的奖励在给定状态和行动下未来最大的奖励年龄学习效率折扣因子广告价值信息

14. 深度位置型混排 Qlearning混排局限性深度位置型混排作用机制 Qtable结构简单，信息容量小内容 Qlearning模型可使用特征有限，难以对如行为序列等细致化建模。内容内容内容内容内容内容广告深度位置型混排内容广告内容内容内容内容内容广告内容广告内容内容内容内容内容广告广告当前Qlearning混排依赖于上游打分，上游打分广告内容内容波动，会引发效果震荡内容内容内容广告优势 • 与上游打分解耦，大大提高混排稳定性 • 深度网络，可容纳信息量大 • 考虑页面间item相互作用内容 …… 内容数值型调权 => 解空间生成内容内容

15. 深度位置型混排整体模型结构 Action设计 Q(state,action) 问题: 稀疏action难以学习充分，易导致预估不准。解法: Embedding User特征上下文 state 上一刷特征解空间 action 左塔为用户侧和上下文特征，刻画用户满意度，右塔为action相关特征。线上增加小流量随机实验，提高稀疏动作命中率，丰富样本多样性。

16. 深度位置型混排序列match 序列attention 思考思考如何刻画用户历史兴趣与待插入广告的匹配程度 • 引入先验信息，产生强交叉特征，对attention进行补充 • 可通过CTR、是否命中、时间权重、TF-IDF等方式进行信息提取 Concat Attention Aggregate Attention Transformer Category match Tag match Item match Author match Match unit 用户行为广告A 广告B Target item 通过transformer刻画用户行为序列信息通过待插入广告与序列attention操作，刻画匹配程度 Item sequence

17.

18. 商店混排流程介绍得分定义（示例） ????? ??? = ??? ∗ ??? ∗ ??? ∗ 1000 ????? ???? = 内容队列 (??? ∗ ??? ∗ ??? + ??? − ? ∗ ?) * 1000 混排问题分析广告与游戏排序分定义方式不同，难以直接对比联运游戏回收周期长， LTV难以估准广告

19. 核心挑战涉及业务方较多，需在满足用户体验、广告、游戏三方要求情况下实现综合最优。商店混排往往有保量等相关诉求，如何在既满足保量的情况下，又实现整体最优？用户体验保量相互冲突？混排游戏收益最优策略广告不同于信息流，商店为高成本消费场景，用户行为稀疏。游戏LTV预估是行业的难题，如何在混排侧为游戏LTV提供一定的容错空间？

20. 演进过程固定位混排 PID保量带约束混排混排精细化分流

21. PID保量双边Pid调控模式比例调节输入 + 积分调节微分调节执行机构输出 Pid调控 Pid调控 70% Cpd_v1 game_v1 70% Cpd_v2 game_v2 30% 30% 测量元件 game_v3 初期相应业务侧诉求，参考业界主流方案，通过对广告和游戏进行保量，初步实现混排能力 30%

22. 带约束混排方案设计思考保量满足保量约束下，如何实现业务综合收益最优？相互冲突？问题分析收益最优策略拆分流量微调 • Pid保量后接重排，综合考虑用户体验、广告收入、游戏价值。 • 拆分流量，针对重排与pid保量冲突，重排只对部分位置生效。第一屏第二屏第n屏第三屏第n屏重排模型游戏队列 PID保量第三屏重排广告队列重排后第一屏第二屏

23. 带约束混排重排设计 Loss设计，提高稳定性思考 • 重排只对首刷生效，缺乏常规强化学习的状态转移。传统qlearning • 如何考虑用户体验、广告收入、游戏价值三方的权衡？商店混排 Gamma=0，提高稳定性 ????? ?????? = ????e game ∗ ????ℎ? ????????? Reward设计，考虑页面最优收入结果融合 ?? ward = ?(cost , ltv, ???) ????? ?? Action设计 ?????? ∈ (????ℎ? ????? , ????ℎ? ????? )

24. 混排精细化分流方案设计思考保量 • 重排候选集由保量产生，非最优 • 候选集为全广告或全游戏，重排无生效空间（线上占比过半）相互冲突？收益最优策略拆分流量微调细粒度分流+部分约束开放 • 如何满足保量下更进一步分流解决方案商业价值分流游戏队列高质量流量混排模型游戏偏好分流结果融合 • 混排精细化分流，对部分分支去除保量限制 • pid聚焦满足保量等业务诉求，模型聚焦探索更优空间广告队列广告位分流体验价值分流低质量流量 pid

25. 混排精细化分流生成式重排模型 P1 思考 P2 A1 C1 P3 P4 A2 A3 P5 P6 P7 P8 P11 … … … A4 • 数值型混排依赖于上游打分，上游偏差变化影响混排模型准确性。 A5 • 未考虑上文信息和位置信息等listwise因素的影响 A6 B1 A7 B2 混排权重 C2 混排位置解决方案混排模型 • 采用生成式模型替代数值型模型，与上游打分解耦。 • 借鉴context-dnn思想，采用context-aware方式，在生成方式和label设计中融入上下文影响。各队列首位信息位置信息上下文统计信息用户基础属性

26.

27. 深度优化混排，更精细化建模，融入更多实时反馈信号，提升模型效果，更为个性化建模尝试跨场景联动混排等方案，实现最优兑换比，与全场景最优建立基于序列生成和序列评估的统一混排范式尝试端上混排，更为及时捕获用户兴趣，提升用户体验

28.