异构混排在vivo互联网的技术实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 异构混排在vivo 互联网的技术实践 沈技毅 | vivo互联网高级算法工程师
2. 目录 背景介绍 信息流 混排实践 应用商店 混排实践 未来展望
3.
4. 混排问题定义与挑战 问题定义 在保障用户体验前提下,通过对不同队列中的异 构内容进行合理混合,实现收益最优。 混排 挑战 • 不同队列item建模目标不同,难以直接对比 • 候选队列常受到大量产品规则约束 • 混排时往往不能修改候选队列的序
5. vivo场景特点与挑战 信息流场景 商店场景 特点 特点
6.
7. 信息流混排介绍 内容队列 混排 广告 目标
8. 固定位分析 内容 内容 内容 广告 广告 内容 内容 广告 内容 内容 行业早期混排,以固定位模版为主 固定位混排带来三个问题: 1 用户方,偏好场景与非偏好场景同等概率出现 2 3 业务方,流量未精准投放,业务服务效率低 平台方,资源错配导致浪费
9. 业界方案调研 某商务社交: 用户体验货币化 Organic Content (0,0.13) (0,0.17) (0,0.2) index i Ranked organic items Organic Ranking (1,0.01) (0.9,0.02) (0.8,0.015) index j Position k Feed Request Resuit Ranked Ads Ads (0,0.1) Ranked Organic Content Ranked ads Re-Rank (revenue utility,engagement utility) Eligible ad position? No Yes Ads Ranking (0,0.2) First ad? Yes (1,0.01) Yes No 𝛾𝑗 ≠ 𝛼𝜇𝑗 > 𝛼𝜇𝜄 𝑔𝑎𝑝 𝑑 = 𝑘 − 𝑝𝑟𝑒𝑣𝑎𝑑𝑖𝑛𝑑𝑒𝑥; 𝑐𝑜𝑚𝑝𝑢𝑡𝑒 𝜃𝑑 No (0,0.2) 𝜃𝑑(𝛾𝑗 + 𝛼𝜇𝑗) > 𝛼𝜇𝜄 分析 Yes No (1,0.01) (0,0.2) 带约束优化,将用户体验与收入统一度量。只考虑单一item价值,未考虑item间相互影响,未考虑长期收益。
10. 业界方案调研 某小视频DEAR:强化学习 Original rea-list reward函数: Ecommender Agent Insert an ad All items to be displayed Advertising Agent 不插入 槽位1 槽位1 槽位1 槽位1 槽位1 槽位1 ad1 (ad1, no) (ad1, slot1) (ad1. slot2) (ad1, slot3) (ad1, slot4) (ad1. slot5) (ad1. slot6) ad2 (ad2, no) (ad2, slot1) (ad2. slot2) (ad2, slot3) (ad2, slot4) (ad2. slot5) (ad2. slot6) ad3 (ad3, no) (ad3, slot1) (ad3, slot2) (ad3, slot3) (ad3, slot4) (ad3, slot5) (ad3, slot6) ad4 (ad4, no) (ad4, slot1) (ad4. slot2) (ad4, slot3) (ad4, slot4) (ad4. slot5) (ad4. slot6) ad5 (ad 5, no) (ad5, slot1) (ad5. slot2) (ad5, slot3) (ad5, slot4) (ad5. slot5) (ad5. slot6) 分析 强化学习对工程依赖较高,论文中已离线测试为主,缺乏线上的分析。DEAR模型只考虑单广告插入,未考虑多广告情况。
11. 演进过程 固定位混排 Qlearning 混排 深度 解空间型混排
12. Qlearning混排 作用机制 内容队列 Agent state s 𝑡 reward 𝑟 𝑡 广告 调权 action 𝑎 𝑡 𝑟 𝑡 +𝑙 s 𝑡 +𝑙 混排系统 业务 策略 融合队列 广告队列 Environment Qlearning模型 Qlearning混排作用机制 强化学习流程 混排机制考虑全页面收益 强化学习考虑长期收益,符合多刷场景诉求 小步快跑,qlearning快速验证效果
13. Qlearning混排 模型设计 Initialize Q table 奖励设计 动作设计 Choose an action a 𝑟𝑒 ward = 𝞪 ∗ log(during) + 𝞫 ∗ log(cost) 𝑠𝑐𝑜𝑟𝑒 𝑟𝑒𝑟𝑎𝑛𝑘 = 𝑠𝑐𝑜𝑟𝑒 ∗ 𝑎𝑐𝑡𝑖𝑜𝑛 全页面粒度权衡用户体验与广告收入 𝑎𝑐𝑡𝑖𝑜𝑛 ∈ (𝑤𝑒𝑖𝑔ℎ𝑡 𝑙𝑜𝑤𝑒𝑟 , 𝑤𝑒𝑖𝑔ℎ𝑡 𝑢𝑝𝑝𝑒𝑟 ) Perform action 状态设计 Measure reward Update Q 基于状态和 行动的新Q值 上下文 内容侧 广告侧 广告偏好 机型 类别 类别 内容偏好 网络 Tag信息 Tag信息 性别 上一刷信息 历史统计信息 历史统计信息 用户侧 c当前Q值 基于状态和 行动的奖励 在给定状态和行动 下未来最大的奖励 年龄 学习效率 折扣因子 广告价值信息
14. 深度位置型混排 Qlearning混排局限性 深度位置型混排作用机制 Qtable结构简单,信息容量小 内容 Qlearning模型可使用特征有限,难以对如行为 序列等细致化建模。 内容 内容 内容 内容 内容 内容 广告 深度位置型 混排 内容 广告 内容 内容 内容 内容 内容 广告 内容 广告 内容 内容 内容 内容 内容 广告 广告 当前Qlearning混排依赖于上游打分,上游打分 广告 内容 内容 波动,会引发效果震荡 内容 内容 内容 广告 优 势 • 与上游打分解耦,大大提高混排稳定性 • 深度网络,可容纳信息量大 • 考虑页面间item相互作用 内容 …… 内容 数值型调权 => 解空间生成 内容 内容
15. 深度位置型混排 整体模型结构 Action设计 Q(state,action) 问 题: 稀疏action难以学习充分, 易导致预估不准。 解 法: Embedding User特征 上下文 state 上一刷特征 解空间 action 左塔为用户侧和上下文特征,刻画用户满意度,右塔为action相关特征。 线上增加小流量随机实验, 提高稀疏动作命中率,丰富 样本多样性。
16. 深度位置型混排 序列match 序列attention 思考 思考 如何刻画用户历史兴趣与待插入广告的匹配程度 • 引入先验信息,产生强交叉特征,对attention进行补充 • 可通过CTR、是否命中、时间权重、TF-IDF等方式进行信息提取 Concat Attention Aggregate Attention Transformer Category match Tag match Item match Author match Match unit 用户行为 广告A 广告B Target item 通过transformer刻画用户行为序列信息 通过待插入广告与序列attention操作,刻画匹配程度 Item sequence
17.
18. 商店混排流程介绍 得分定义(示例) 𝑠𝑐𝑜𝑟𝑒 𝑐𝑝𝑑 = 𝐶𝑇𝑅 ∗ 𝐶𝑉𝑅 ∗ 𝐵𝐼𝐷 ∗ 1000 𝑠𝑐𝑜𝑟𝑒 𝑔𝑎𝑚𝑒 = 内容队列 (𝐶𝑇𝑅 ∗ 𝐶𝑉𝑅 ∗ 𝐿𝑇𝑉 + 𝐶𝑇𝑅 − 𝞪 ∗ 𝞫) * 1000 混排 问题分析 广告与游戏排序分定义方式不同,难以直接对比 联运游戏回收周期长, LTV难以估准 广告
19. 核心挑战 涉及业务方较多,需在满足用户体验、 广告、游戏三方要求情况下实现综合最优。 商店混排往往有保量等相关诉求, 如何在既满足保量的情况下,又实现整体最优? 用户 体验 保量 相互冲突? 混排 游戏 收益最优策略 广告 不同于信息流,商店为高成本消费场景,用户行为稀疏。 游戏LTV预估是行业的难题,如何在混排侧为游戏LTV提供一定的容错空间?
20. 演进过程 固定位混排 PID保量 带约束混排 混排精细化分流
21. PID保量 双边Pid调控模式 比例调节 输入 + 积分调节 微分调节 执行机构 输出 Pid调控 Pid调控 70% Cpd_v1 game_v1 70% Cpd_v2 game_v2 30% 30% 测量元件 game_v3 初期相应业务侧诉求,参考业界主流方案,通过对广告和游戏进行保量,初步实现混排能力 30%
22. 带约束混排 方案设计 思考 保量 满足保量约束下,如何实现业务综合收益最优? 相互冲突? 问题分析 收益最优策略 拆分流量微调 • Pid保量后接重排,综合考虑用户体验、广告收入、游戏价值。 • 拆分流量,针对重排与pid保量冲突,重排只对部分位置生效。 第一屏 第二屏 第n屏 第三屏 第n屏 重排 模型 游戏队列 PID保量 第三屏 重排 广告队列 重排后第一屏 第二屏
23. 带约束混排 重排设计 Loss设计,提高稳定性 思考 • 重排只对首刷生效,缺乏常规强化学习的状态转移。 传统qlearning • 如何考虑用户体验、广告收入、游戏价值三方的权衡? 商店混排 Gamma=0,提高稳定性 𝑠𝑐𝑜𝑟𝑒 𝑟𝑒𝑟𝑎𝑛𝑘 = 𝑠𝑐𝑜𝑟e game ∗ 𝑤𝑒𝑖𝑔ℎ𝑡 𝑞𝑙𝑒𝑎𝑟𝑛𝑖𝑛𝑔 Reward设计,考虑页面最优收入 结果融合 𝑟𝑒 ward = 𝑓(cost , ltv, 𝑐𝑡𝑟) 𝑠𝑐𝑜𝑟𝑒 𝑎𝑑 Action设计 𝑎𝑐𝑡𝑖𝑜𝑛 ∈ (𝑤𝑒𝑖𝑔ℎ𝑡 𝑙𝑜𝑤𝑒𝑟 , 𝑤𝑒𝑖𝑔ℎ𝑡 𝑢𝑝𝑝𝑒𝑟 )
24. 混排精细化分流 方案设计 思考 保量 • 重排候选集由保量产生,非最优 • 候选集为全广告或全游戏,重排无生效空间 (线上占比过半) 相互冲突? 收益最优策略 拆分流量微调 细粒度分流+部分约束开放 • 如何满足保量下更进一步 分流 解决方案 商业价值分流 游戏队列 高质量流量 混排模型 游戏偏好分流 结果融合 • 混排精细化分流,对部分分支去除保量限制 • pid聚焦满足保量等业务诉求,模型聚焦探索更优空间 广告队列 广告位分流 体验价值分流 低质量流量 pid
25. 混排精细化分流 生成式重排模型 P1 思考 P2 A1 C1 P3 P4 A2 A3 P5 P6 P7 P8 P11 … … … A4 • 数值型混排依赖于上游打分,上游偏差变化影响混排模型 准确性。 A5 • 未考虑上文信息和位置信息等listwise因素的影响 A6 B1 A7 B2 混排权重 C2 混排位置 解决方案 混排模型 • 采用生成式模型替代数值型模型,与上游打分解耦。 • 借鉴context-dnn思想,采用context-aware方式, 在生成方式和label设计中融入上下文影响。 各队列首位信息 位置信息 上下文统计信息 用户基础属性
26.
27. 深度优化混排,更精细化建模,融入更多实时反馈信号,提升模型效果,更为个性化建模 尝试跨场景联动混排等方案,实现最优兑换比,与全场景最优 建立基于序列生成和序列评估的统一混排范式 尝试端上混排,更为及时捕获用户兴趣,提升用户体验
28.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.123.4. UTC+08:00, 2024-04-18 14:36
浙ICP备14020137号-1 $访客地图$