从推荐模型的基础特点看大规模推荐类深度学习系统的设计

如果无法正常显示，请先停止浏览器的去广告插件。

1. 从推荐模型的基础特点看袁镱腾讯

3. 个人简介 ! 袁镱博士，专家工程师 ! 研究方向：机器学习系统，云计算，大数据系统 ! 负责腾讯平台与内容事业群（PCG）技术中台核心引擎：无量系统。支持大规模稀疏模型训练，上线与推理 ! 无量系统 ! 项目于17年启动，先后经过了6个主要版本的迭代 ! 覆盖腾讯PCG全部业务的推荐场景，支持腾讯 IEG，CSIG，QQ音乐，阅文等业务的部分推荐场景

4. 提纲 ! 推荐场景深度学习系统的基本问题与特点 ! 推荐类模型的深度学习系统设计 ! 系统维度 ! 算法维度 ! 总结

5. 基于深度学习模型的推荐流程，场景与目标用户行为数据上报数据通道特征处理特征库实时样本生成服务离线样本生成任务样本存储数据通道数据落地训练系统无量 Serving系统模型登记 HDFS ! 推荐场景的重要性模型管理上线管理模型上线业务服务无量预测请求 RGW/Cos/ kafka 混排排序召回内容获取请求 ! 千亿级推荐模型应用 ! PCG的图文，视频推荐（腾讯视频，腾讯新闻，QQ看点，浏览器，微视， QQ小世界等） O1. 千亿级特征（TB级）的模型的在线/离线训练，在线推理服务和持续上线 ! 腾讯系内容推荐：阅文集团，QQ音乐 O2. 针对推荐特点的深度优化，达到业界先进水平 ! Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP]

6. 推荐系统的核心特点 Item推荐 Item 推荐系统 User 1.1 User与推荐系统交互，7*24小时流式学习在线推理模型上线文章新闻模型训练视频用户反馈 Item特征 1.2 Item和User新增，离开/遗忘， Embedding空间动态变化。百万级稠密交叉参数 ! Feature 2（数据的时空特点） 2.1 短时间内只有部分item和user被命中，只有部分参数被用到访问百分比单个样本命中的key 千亿级稀疏输入层参数本小时访问过的key 上小时访问过的key 时间（小时） ! Feature 3（机器学习的特点） ! Feature 1（基本特点） ! 2.2 hotkey现象，且训练与推理的 hotkey高度重合比如：性别，年龄等取值少的特征；热⻔文章的特征，活跃用户的特征 Embedding参数少量的高频key占据了主要访问需求 ID/tag/交叉特征小特征中型特征 (全量为：亿，千亿) （个）一段时间样本命中的 unique key Embedding以稀疏的方式表达信息 ID/tag/交叉特征 (千，千万) （百）小特征中型特征（个）（十）短期命中的高频key随时间缓慢变化

7. 大规模推荐模型深度学习系统基本解决维度分布式 ! Feature 1（基本特点） ! Feature 2（数据的时空特点）系统 1. 高性能 2. 效果无损的优化大规模优化模型算法 ! Feature3（机器学习的特点）

8. 大规模推荐模型深度学习系统基本解决维度分布式 ! Feature 1（基本特点） ! Feature 2（数据的时空特点）系统 1. 高性能 2. 效果无损的优化大规模优化模型算法 ! Feature3（机器学习的特点）

9. 训练框架—基于参数服务器架构的分布式训练框架 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被用到 TB级模型分片存储/更新参数按需获取/更新百TB数据分片训练

10. 异步训练流水线和多级存储：提升性能，降低内存成本 ! 常规训练流水线 Worker Reader 样本读取样本解析样本读取样本解析需保持顺序，以保证训练效果 ! 问题： ! 异步参数处理流水线 Worker Parameter Server Learner Request Handler Storage 参数拉取样本解析查询Sparse Table 查询Dense Tensor 返回参数训练参数更新查询Sparse Table Learner Reader 样本读取 Batch入队列 Parameter Server Request Handler Storage Batch入队列 Unique keys 参数预准备 Lookup+ pooling 算子融合参数拉取查询Dense Tensor 返回参数训练参数更新查询Sparse Table 磁盘近期训练参数管理更新参数查询Dense Tensor 更新参数 ! Learner线程中参数拉取和参数更新对性能影响大 ! 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利用速度慢的存储介质 ! 效果： ! 在不影响训练效果的情况下，降低参数准备与更新耗时，提高训练速度。训练耗时下降超50% ! 异步storage线程，支持基于冷热数据的多级存储。内存消耗下降30%-70%

11. 基于GPU的多级存储训练：更高的性价比 ! Feature 2.1: 短时间内只有部分item和user被命中，只有部分参数被用到 ! 方案 ! 原有：内存能够存储的参数->对应的样本量Group 1. 减少节点数分布式训练的慢机与同步问题 2. 提升节点同构性 ! 新增：显存能够存储的参数->对应的样本量Pass ! 新增：GPU并行操作友好->CSR格式的显存数据访问 ! GPU训练的优势 ! 更少的机器节点，更少的分布式系统相关问题 ! 更高的性价比 ! 推荐模型GPU训练的挑战 ! 显存（A100最大80GB）放不下TB级的模型 ! GPU多线程并行计算能力对稀疏数据不友好 SSD磁盘 10TB 全部参数内存 1TB 显存 32/40/80GB 即将用到的参数正在训练的参数

12. 推理服务—分布式Serving架构 ! 业务需求 ! 模型大小超TB ! 单个请求需要15W个key ! 读写架构 ! 耗时要求10ms以下 ! 资讯业务请求量大（>10000请求/秒） ! 模型有多个版本 ! 多线程无锁：基于模型版本的读写分离 >15亿key/秒 CPU型服务 ! 多机：多副本并行读取近千台 ! CPU：固定64位key，基于L1缓存的查询优化并发查询优化网络型服务数十台 ! 原有在线分布式存储系统的问题 ! 主备模式资源严重浪费 ! 数据读写需要加锁 ! 支持多模型和模型多版本困难只读版本 Feature 2.2 Hotkey缓存优化内存型服务 <10台写版本

13. TB级模型实时上线 ! 问题：TB模型实时多地传输和加载成本高 ! 更灵活的用法：模型多切片，按需上线 ! 方案：高低频分别上线训练端生成高频参数集独立通道上线降低请求毛刺 Feature 2.2 Hotkey变化慢 ! Dssm ! wdl 业务服务 MB级别DNN部分推理节点 1. 获取用户向量 SDK Sparse Hotkey 2. 向量召回召回索引服务异步刷库推理节点推理节点分布式 Serving集群分布式 Serving集群分布式Serving集群 Group 1 Group N ... 副本1 副本2 副本1 副本2 TB级别Embedding部分全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka） Feature 2.1: 短时间内只有部分参数被用到

14. 大规模推荐模型深度学习系统基本解决维度分布式 ! Feature 1（基本特点） ! Feature 2（数据的时空特点）系统 1. 高性能 2. 效果无损的优化大规模优化模型算法 ! Feature3（机器学习的特点）

15. 通讯量可以变小来提升训练速度么？---参数，梯度压缩 ! 问题：特点 Dense参数，每次都用，快速收敛 Sparse参数，随数据变化，收敛度差异大混合压缩方案基于动态阈值的稀疏化压缩 float16压缩 ! 参数w和梯度g占据主要的通讯量，拉⻓了请求时间 ! 常规的数值无损的压缩方法效果不明显 ! 业界主流做法： ! 量化 float32->float16->int8->int4->2bit 直接压缩->训练算法补偿 ! 稀疏化。累计发送，需要做本地梯度修正效果～-90% -50% 训练速度提升 10%-30% [2020] Compressed Communication for Distributed Deep Learning: Survey and Quantitative Evaluation [ICLR2018]Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

16. 在线推理服务成本高，上线模型可以变小么？---模型压缩痛点：线上服务成本 > 训练任务成本内存是主要瓶颈 1. 更少的values：百度优点：与优化器无关变⻓Embedding 特征出现次数少，用1个float 结合show/click，有效果提升 2. 更少的key：问题： CV/NLP低频上线，常用的模型压缩算法不适应推荐场景阿里思考：模型的大小由什么决定？ Key + embedding values 优点：1. 稀疏度高缺点：特定优化器有效，与adam有效果差距优点：与优化器无关 key级别的稀疏化 3. 更短的values 无量 2. 变⻓编码，不利于性能优化 2. 实现简单 group lasso a) 缺点：1. 只适合低频特征多的场景混合精度： float16+int8+int4 b) 量化压缩，1bit或2bit 无量同时支持四种方法缺点：方案b需要量化训练

17. Embedding table可以设计得更小么？Double Hashing 业界方案：Double Hashing 压缩手段除了量化和稀疏化，还有什么？因式分解 Facebook [KDD21] Compositional Embeddings Using Complementary Partitions for Memory-Efficient Recommendation Systems Embedding Table与第一层fc可以看作低秩矩阵分解 Twiiter [RecSys21] Model Size Reduction Using Frequency Based Double Hashing for Recommender Systems 矩阵分解原始矩阵 9 512 腾讯，阿里，头条也都支持了Double Hashing 512 9 hash1(key) 9 亿亿下一步的问题：解空间千万 key 千万 hash2(key) 场景内存节省 1. Embedding Table的信息仍然非常稀疏场景1 88% 2. 直接压缩key空间和缩小value⻓度都会导致模型效果下降场景2 64%

18. 未来方向—现有推荐架构的问题，算法工程协同的解法 ! 推荐全链路自适应 ! 统一建模，根据请求量削峰填谷，资源利用最大化问题1. 推荐链路的漏斗是对资源的巨大浪费 ! 多场景建模 [CIKM2021] One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction ! 预训练模型Bert GPT-3在CV/NLP大行其道，相关技术正在进入推荐领域 [ijcai2021] UNBERT: User-News Matching BERT for News Recommendation [CIKM2021] Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce 问题2. 结果利用不充分，响应不够快端上重排 [KDD2020] DCAF: A Dynamic Computation Allocation Framework for Online Serving System ! 更基础的复杂模型，场景的快速适应 ! 端云一体的协同推荐技术问题3. 几十个场景，独立链路场景1 场景X [2021] MC2 -SF: Slow-Fast Learning for Mobile-Cloud Collaborative Recommendation

19. 总结目标 ! 千亿级推荐模型应用 O1. 千亿级特征（TB级）的模型的在线/离线训练，在线推理服务和持续上线 O2. 针对推荐特点的深度优化，达到业界先进水平推荐场景特点 ! Feature1（基本特点） Item和user变化导致特征随时间新增，遗忘。 Embedding空间是动态的。 ! Feature 2（数据的时空特点） 2.1 短时间内只有部分item和user被命中，只有部分参数被用到 2.2 hotkey现象，且训练与推理的hotkey高度重合 ! Feature 3（机器学习的特点）信息以稀疏的方式表达方案

20. Q&A

21.

22. Thanks