降本增效利器：快手 CPU&amp;GPU超大规模在离线混部落地实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 降本增效利器：快手 CPU&GPU 超大规模在离线混部落地实践快手/容器云技术中心/辛文

3. 目录页 Contents 背景与趋势 1 背景与挑战 2 利用提升最佳实践CPU混部篇 3 利用率提升最佳实践GPU混部篇 4 未来规划及展望

4. 快手混部生态发展历程 2023 ~ 后续全局资源效率 2021 ~ 2022 2019~2020 扩量与精细化资源合池 GPU虚拟化与GPU混部多场景统一调度在离线混部架构搭建 AI训练与潮汐混部全局弹性能力扩量 CPU在离线混部隔离能力提升服务画像及AI资源预测混部生态启动 CPU潮汐混部计量计费

5. 快速发展的业务：给资源供给带来了挑战应用数量众多 IDC数目众多类型多种多样升级变更频繁资源潮汐化峰值资源短缺在离线分离资源交付压力快速增长的业务与资源成本控制间的矛盾日益突出

6. CPU业务背景与趋势离线+非实时作业资源利用率高实时性要求较低全天持续需求大小块资源较可利用在线服务利用率指标资源利用率较低时延敏感资源需求点 “潮汐”特征明显需要足够buffer 资源套餐固定某在线业务三天使用率示意图具备容错特性允许重试稳定性要求时延、饱和度、错误率重试成本高，用户侧有感 • • • • 流量波峰波谷 SLO保障冗余用户估计误差突发增长需求

7. GPU业务背景与趋势服务量动态增长卡类型多样微服务改造、长尾增多实时流量潮汐实例负载及规模快速变化 GPU硬件多年持续迭代算力需求多样化 GPU 算力强需求提升GPU 资源效率 IDC数量众多平台系统损耗故障及主机异构的调度损耗峰值资源短缺资源池共享推理/训练/近线多场景混合资源弹性需求与云原生化多业务场景 GPU应用已深刻影响各类业务（搜广推、音视频、MMU、风控等）场景快手内部GPU在线服务及离线训练任务均完成云原生化迁移单卡、多卡、多机多卡场景资源交付压力

8. 成本问题逐步凸显核心优化目标：CPU & GPU资源利用率提升 GPU卡规模十万量级 GPU服务数千量级图：快手内部某服务GPU使用率趋势运行效率峰均差值多种主流GPU卡型号数万台GPU主机&十万量级GPU卡在线服务（推理等）、AI训练任务及近线服务（特征提取等）多样化场景在线服务GPU峰均差值约30PP 训练类算力全天需求旺盛

9. 目录页 Contents 背景与趋势 1 背景与挑战 2 利用提升最佳实践CPU混部篇 3 利用率提升最佳实践GPU混部篇 4 未来规划及展望

10. 如何落地系统能力离线服务与作业质检、报表等高容错应用定时任务审计系统在离线容器编排资源贡献接入离线资源监控 MapReduce 离线作业编排应用编排 Job编排动态超售服务画像大数据引擎MR/SPark 跨集群调度负载调度弹性扩缩容 Operator定制 Flink 自动化运维资源成本分帐 Spark 转码类统一资源层（容器+存储）容器隔离增强容器网络 KATA 分布式存储 rbd/nbd kwaistore HDFS 机房带宽监测帐单管理集群管理层在线容器集群主机部署服务器纳管基础服务混用集群备机池及测试机公有云主机备机及测试机资源审计公司统一基础设施业务存量物理机容器集群物理机

11. 扩展资源类型 4种资源类型资源类型  复用原生K8S资源类型  新增三种混部资源 Mid 特点简介供给资源量基于服务画像及AI资源预测模型，能够实现天级别的资源供给保障。适用于对资源驱逐比较友好的在线业务以及一些运行时间要求比较长的近线任务。 QOS 适配业务 LS、BE  Flink  近线任务  离线基线类服务 BE  离线批处理任务  高优音视频异步转码任务  gpu混部任务 BE  低优音视频异步转码任务  测试任务更灵活的QOS等级  在线：LSE、LSR、LS Batch  混部：LS、BE Free 基于Mid资源超发后的再次超发，资源供给存在一定波动性，但整体退避率控制在一定sla范围内。适用于短作业或者对失败重跑有一定要求的中低优作业。基于单机的利用率水位，资源供给无法提供较高保障，同时存在一定程度压缩和退避的概率。适用于对延时不敏感，同时具备恢复重跑能力的低优作业。

12. 隔离能力建设 • • • • 毫秒量级采集周期独占核与共享核管理 CPU share分级压力状态离线任务按顺退避超过阈值自动退避设置单机离线进程限制设置单容器实例进程限制 • • • 毫秒量级秒采集周期服务画像及AI模型预测压力状态离线任务按顺退避 OOM优先级 • • • • • • • 毫秒量级采集周期混部大框维度管控分级按需退避帐户级FD整体约束容器内外帐户映射帐户权限、配额管理网卡流量 • • • • 整机系统负载 Pid • • • 离线帐户内存 CPU 磁盘空间/IO • • • • 数十秒级采集周期超阈值清理离线任务及数据重IO接入分布式块存储 IO throttle限制离线任务TC限速流量上限监测调度层优化分布机房流量分级管控

13. 内核隔离  调度优先级  超线程隔离  多调度队列  在离线分盘  离线云盘  磁盘IO限速 CPU 内存磁盘网络  内存异步回收  MIN水位分级  L3 cache隔离  OOM优先级  单机TC限速  机房流量分级管控

14. 内核隔离 - CPU调度优先级针对调度延迟优化的绝对优先级，高优任务对低优任务有绝对的优先级。调度抢占时会忽略CFS强调的公平性：  wake up的时候，高优任务无条件抢占低优任务  pick next的时候，只要有高优任务处于就绪态，低优任务无法被pick CPU调度优先级有高中低三种级别 • 高优可以抢占低优，不可以抢占中优 • 中优可以抢占低优调度QoS目标是通过混部在离线服务，在提高机器利用率的同时，保证高优和延迟敏感的在线业务不受离线业务影响。

15. 内核隔离 - CPU超线程隔离 Introduction 针对 CPU 微架构资源的 Smt-Denoise，高优任务有权独占物理核，并压制/驱逐对端的低优任务，减少低优任务对物理核算力、L1/L2 cache等微架构干扰。 Thread TH1 TH2 TH3 TH4 Core L2 Cache L2 Cache L3 Cache Socket IMC: Memory Bandwidth high T H 1 low T H 2 CORE high T H 1 T H 2 CORE T H 1 low T H 2 CORE T H 1 T H 2 CORE

16. 内核隔离 – 内存 Introduction 当memcg的内存使用量超过阈值时，需要进行直接回收；然而，直接回收给业务的执行路径引入不可内存异步回收控的长尾；memcg级的后台异步回收功能，通过将memcg内存维持在一定水线可以避免直接回收支持给为离线作业设置单独的Min 水线，降低混部后对在线直接内存回收。当整机内存不足时，优先 Min水线对离线进行分配抑制或者直接回收，降低高优先级memory cgroup触发直接回收的几率，优化其内存分分级配延迟。当整个系统脏页数量达到限制时，会开始执行writeback并限制写入速度；低优任务可能会产生过多脏脏页限制页达到系统阈值，导致高优任务的脏页被过早flush，并被限制速度。该特性，能限制离线容器的脏页数。 L3 cache 基于intel的RDT技术，限制离线作业的LLC占用量，降低离线和在线共socket干扰隔离

17. 资源抽取率提升实践  整机利用率提升 20%+  资源混部供给精细化管理/内核隔离能力通过对各类混部资源精细化管理，同时借助内核隔离能力，混部深水区探索百万核量级服务画像 /干扰检测 YARN on K8S 自研Yarn on k8s 机构，实现离线MR/Spark任务混部隔离能力增强资源画像及预测基于机器学习的资源预测模型，为离线任务提供稳定资源常态/潮汐混部模式多QOS等级适配多业务qos等级需求，实现多场景服务混合部署

18. 目录页 Contents 背景与趋势 1 背景与挑战 2 利用提升最佳实践CPU混部篇 3 利用率提升最佳实践GPU混部篇 4 未来规划及展望

19. 为什么需要虚拟化与混部类技术任务颗粒度请求优先级 VGPU Prioritized-QoS 大量单实例无法用满GPU资源硬件算力持续增强形成浪费在线容量冗余，峰值高而日均利用不足离线训练成本高昂，近线类需求旺盛 GPU算力显存编码器渲染器高优抢占分时复用削峰填谷消除冗余提升利用率优化成本高优保障在线峰值流量保障实时在线需求离线训练+近线任务压缩算力成本

20. 如何落地系统能力业务场景电商推荐广告搜索 … 音视频 Services 框架平台在线推理音视频增强 Framework & Platform 硬件基础设施 Infrastructure 直播 API劫持高优QoS抢占媒体处理风控离线AI训练特征提取等近线任务机器学习平台服务容器部署平台 VGPU 虚拟GPU资源定义与调度特效处理混部GPU 离线训练与近线任务在线业务场景 GPU算力隔离显存隔离限制显存水位预测算力请求优先级离线时间片兜底显存分配识别编解码器拦截显存实时避让离线内存监测离线CPU压制 GPU卡 CPU 内存网络存储

21. 什么是GPU虚拟化路径允许多容器实例在资源隔离前提下共享 GPU卡 GPU 显存方式 VGPU实例：CPU+内存+算力占比+显存占比+器件选配渲染器收益业务：用量减少成本降低算力单元算力单元编解码器平台：部署密度增加利用率提升 N分之一算力/显存编解码器可选项 GPU算力 GPU 显存单实例独占 GPU算力 GPU显存多实例共享

22. GPU虚拟化底层技术选型 Nvidia MPS 内核层劫持多进程共享上下文，吞吐指标更优内核层拦截驱动API隔离显存/算力缺乏故障强隔离，容器间异常会传导细粒度的显存和算力调度策略不支持显存硬隔离无需替换CUDA库上层应用无感 CUDA层劫持（vCUDA） Nvidia MIG CUDA层拦截API隔离显存/算力硬件物理切分方式，适用A100、A30等卡型依赖容器镜像替换CUDA库不支持动态划分 CUDA发新版需要迭代适配依赖CUDA11及以上高版本

23. 快手GPU虚拟化方案技术路线：内核态劫持  算力隔离：基于内核态的时间片轮转调度，多容器时分复用GPU计算器件  显存隔离：基于内核态劫持显存申请、回收等接口，控制容器使用显存配额共享GPU 的多容器占用GPU 出让GPU 多容器实例按时间片轮转切换时间片分配周期 Period Pod1 Pod2 VGPU按时间片调度示意图时间轴t

24. 性能压测数据聚合QPS对比 25.000 20.000 原生GPU整卡快手虚拟化单卡双实例  有效吞吐介于原生整卡与MPS抢占模式间 MPS方案单卡双实例  具备故障强隔离能力，显著优于MPS方案 15.000 10.000 P99延迟对比 35.00 原生GPU整卡模式 30.00 5.000 快手GPU虚拟化单卡两实例 MPS方案单卡两实例 25.00 0.000 1 8 16 BatchSize 32 64 20.00 15.00  时间片轮转引入极端场景P99延迟放大 10.00 5.00  适用具备一定延迟容忍的业务场景 0.00 1 8 16 BatchSize 32 64

25. 什么是GPU混部？允许在线和离近线容器实例在优先级保障前提下共享同一块GPU卡在线服务有GPU计算请求时立刻获取算力执行，离线服务的请求被压制算力抢占在线请求实时抢占立即执行执行结束在线实例A 请求resume 请求suspend 离线实列B 请求resume 请求suspend 离线实例C 时间轴t 显存避让当剩余GPU显存低于安全阈值时，离线服务实例会被立即驱逐以释放显存供给在线服务进程整卡显存缓冲阈值空闲显存离线已用在线已用显显存存离线进程可用显存离线实例 6 重调度后在新主机拉起 1 申请显存 kGPU驱动 2 实时检测显存余量低于阈值则生成通知事件 3 主动驱动低优离线实例单机管理组件 5 阻止低优实例原地拉起 4 感知显存实时可申请量 DevicePlugin

26. KGPU驱动-内核模块 Kgpu Device Wrapper  虚拟设备透传 CUDA APP CUDA APP /dev/nvidia0 /dev/nvidia0  抢占调度  权重隔离核心功能因素  离在线混部 CUDA APP … /dev/nvidia0 KGPU Device Wrapper  业务透明无感切换 GPU算力调度器容器N 容器2 容器1 容器1 离在线混部容器2 算力调度器显存隔离 … 容器N 显存避让 Doorbell拦截 CUDA库逆向水位预警高优QOS抢占 IOCTL透明劫持实时退避 Busy检测判断显存分配识别使用预测驱动二进制解析  显存隔离原生Driver  显存避让硬件GPU卡

27. GPU混部利用率提升 GPU混部提升利用率示例仅在线服务运行的GPU利用率趋势在线与离近线复用资源下的GPU利用率趋势

28. 利用率提升效果 GPU日均利用率趋势稳定性保障  算力，显存，故障隔离能力  实时量化干扰指标业务成本显著下降  对接服务成本优化超50%  数千卡近线类算力稳态供给 Jan Feb Mar Apr May June July Aug

29. 潮汐混部业务背景 GPU整机维度分时复用 AI训练计算量大利用率优化痛点在线服务强保障 • 多机多卡高算力需求 • 训练过程需要稳态运行 • 延时极度敏感 • 多角色Gang调度 • 内存+IO+网络等多瓶颈 • 资源配额实时协调 • 性能波动关乎收入 • 任务非实时可推迟运行 • 潮汐特征明显

30. 潮汐混部的周期切换实时抢占推理稳态运行 07:30 ~ 08:30 早高峰在线流量启动期在线服务逐步扩容增加容量，抢占逻辑最高优保障在线服务资源供给 08:30 ~ 22:30 在线业务流量持续高位抢占稳态干扰观测跟踪 + 调度策略定制流量预测+弹性扩量+优先级抢占训练任务运行 23:30 ~ 07:30 凌晨在线流量持续低谷提升训练任务错峰规模化运行稳定性，尽力减少运行失败导致的无效损耗调度实时感知算力分布保障在线推理场景持续稳定运行，冗余资源支持小微低优任务运行稳态转换在离资源转换 22:30 ~ 23:30 晚高峰在线流量消退期在线按容量预测缩容，尽力空出整机调度策略定制+ 重调度干预

31. 离线训练运行保障 08:30 ~ 22:30 22:30~23:30 23:30~07:30 07:30~08:30 离线训练任务运行规模趋势特点策略离线GPU资源持续压制状态空闲整机存在不确定性低配短时训练任务排队提交离线GPU资源逐步增多空闲整机规模快速增加训练任务队列逐步迁移扩量离线GPU资源规模趋势于稳定态空闲整机确定性显著增强高配长任务放量启动运行离线GPU资源被实时抢占空闲整机规模快速减少任务队列暂停高优提交装箱优先策略保持整机空闲预留干预缩容实例尽力空出整机调度器感知任务优先级+运行时长训练任务保存结果逐步退出任务失败自动重试提升成功率二次调度主动腾挪提升装箱率压制训练任务因资源导致的失败率切换适量低配短时训练任务

32. 资源抽取率提升  GPU利用率提升 >10% GPU机器分时复用  GPU卡供给机器属性离在线切换，实现GPU机器分时复用万卡量级 GPU分时复用重调度资源规整 VGPU 虚拟化多在线实例用GPU卡，增加单机部署密度 GPU常态混部 /KGPU模型在线共享GPU卡 /GPU虚拟化 KGPU 常态混部多优先级服务共享GPU卡，低优先级服务允许被抢占

33. 目录页 Contents 背景与趋势 1 背景与挑战 2 利用提升最佳实践CPU混部篇 3 利用率提升最佳实践GPU混部篇 4 未来规划及展望

34. 利用率深水区  服务画像/模型预测优化  内核隔离能力增强  精细管控：干扰识别与避让全局资源效率提升  资源合池  多场景统一调度

35.

降本增效利器：快手 CPU&amp;GPU超大规模在离线混部落地实践

降本增效利器：快手 CPU&amp;amp;GPU超大规模在离线混部落地实践

降本增效利器：快手 CPU&GPU超大规模在离线混部落地实践

降本增效利器：快手 CPU&GPU超大规模在离线混部落地实践