GPU容器与AI训练平台探索与实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. GPU容器与AI训练平台探索与实践陈瀚 vivo互联网容器架构师刘东阳 vivo AI工程架构师

2. 目录 Part 01 第一部分｜vivo GPU平台架构 Part 02 第二部分｜GPU容器能力实践 Part 03 第三部分｜AI工程训练平台实践 Part 04 第四部分｜vivo GPU未来展望 CONTENTS

3. 1. vivo GPU平台架构智能计算业务语言大模型蓝心小v、游戏助手、本地搜索… 语音大模型实时翻译、方言随心说… 视觉大模型 AI绘画、人像消除、相册回忆… 商业化广告算法内容推荐算法游戏推荐算法训练平台模型开发、模型训练推理平台推理服务部署、管理 AI业务队列影像业务队列 OS业务队列互联网业务队列资源管理统一调度、部署、管理编排调度 GPU弹性伸缩、训推潮汐部署、卡调度策略 GPU虚拟化 MIG虚拟化、内核层虚拟化、CUDA层虚拟化多容器网络 Calico、Hybridnet、Sriov(RDMA) AI工程层容器平台层物理层（基础设施） GPU服务器英伟达、异构卡 … 分布式存储轩辕存储、HDFS… 高性能网络 RoCEv2、IB …

4. 第二部分｜GPU容器能力实践 2.1 大规模容器集群稳定性 2.2 GPU容器提效降本实践

5. 2.1 大规模GPU容器集群稳定性背景大规模集群运维工作繁重日常运维工作量大发现问题不及时高频任务调度影响组件高频调度组件负载激增极易发生集群雪崩故障处理面临严峻挑战稳定性建设故障处理难度大故障复杂场景多

6. 2.1 大规模GPU容器集群稳定性建设架构性能优化集群自动化运维故障处理与恢复预演 Apisever优化 etcd优化 CoreDNS优化在线\离线分离 Event限流负载与连接数均衡横向扩容单独ssd磁盘存储时长调整 List穿透请求优化 Event集群拆分离线元数据存储优化 LocalDNS Cache 组件HPA自动扩容优化ndots配置启用DNSTAP插件自动化节点管理监控告警自动化巡检自动故障发现自动屏蔽故障节点自动健康检测与开放调度宕机通知与重建pod通知域名解析监控异常pod\node监控存储挂载监控网络连通性监控平台组件监控集群健康诊断异常pod巡检节点健康巡检周期自定义脚本巡检 etcd故障预案 Master故障预案网络与镜像仓库预案事件集群故障切换元数据备份与恢复节点异常无感切换 Master节点扩容场景 Controller节点异常替换 Scheduler节点异常替换 Apiserver节点异常替换 RR节点异常上游交换机异常 Harbor单节点故障 Harbor单机房故障

7. 2.1 大规模GPU容器集群稳定性建设成果 etcd提交延迟秒级缩短到毫秒级 Apiserver CPU 负载下降年度故障复盘数下降 60 70 CoreDNS无毛刺且负载下降集群可用性 99.99 稳定性建设效果 90

8. 第二部分｜GPU容器能力实践 2.1 大规模容器集群稳定性 2.2 GPU容器提效降本实践

9. 2.2 GPU容器提效降本方案总览 GPU容器降本提效解决方案单卡维度单服务维度多服务维度多机多卡维度自研GPU虚拟化方案 GPU弹性扩缩容方案训推潮汐部署方案容器RDMA高性能网络方案

10. 2.2.1 单卡共享-GPU虚拟化背景低利用率业务浪费资源开发机显存超售需求部分推理业务负载低业务对安全性和隔离性要求不同共享部署降低成本适配共享部署业务的多种需求 Dev开发机用户使用频率低显存超售提高资源复用率

11. 2.2.1 vivo 自研GPU虚拟化架构统一调度接入Kubernetes 自研组件 vgpu-device -plugin vgpu-scheduler vgpu-exporter GPU虚拟化多容器共享GPU方案 vgpu-docker 1. 自研组件多种卡调度策略 Binpack \ Spread \ CardOnlyOne \ CustomTopo GPU虚拟化能力矩阵 MIG 虚拟化内核层虚拟化 • vgpu-device-plugin：注册vgpu资源、分配设备、标识信息 • vgpu-scheduler：调度拓展插件，支持多种卡调度策略 • vgpu-exporter：vgpu监控组件 • vgpu-docker：处理vgpu设备挂载和清理逻辑 CUDA层虚拟化 2. 多种卡调度策略物理层（基础设施） GPU服务器英伟达高性能网络 RoCEv2、IB … 分布式存储轩辕存储、HDFS… • Binpack：尽量聚集 • Spread：尽量分散 • CardOnlyOne：每个卡只有一个实例 • CustomTopo：自定义节点与卡分配拓扑

12. 2.2.1 vivo GPU虚拟化方案 MIG虚拟化内核层虚拟化 CUDA层虚拟化 CUDA进程 CUDA进程 CUDA进程 IOCTL /dev/nvidia 挂载单卡划分 /dev/nvidiactl /dev/nvidiactl /dev/nvidia CUDA API Lib库替换计算单元计算单元计算单元计算单元显存单元显存单元显存单元显存单元 /dev/vgpu_ctl /dev/vgpu_nv 虚拟设备内核模块算力限制技术显存限制 libcuda.so NVIDIA Driver 硬件提供的切块组合能力算力限制 API函数映射关联显存限制调用 NVIDIA Driver NVML API libnvidia-ml.so NVIDIA Driver 替换字符设备，内核态拦截IOCTL请求拦截库替换API库，建立函数映射关系优点 NVIDIA官方解决方案硬件层安全性高隔离性强无需替换CUDA库上层应用无感内核态安全性高有开源方案使用灵活可实现显存超售缺点仅支持Ampere及以后架构的卡仅支持特定比例切分无开源方案，自研难度高算力隔离不充分用户态安全性低算力隔离弱应用算力隔离强需求的线上业务常规线上业务 Dev开发机业务拦截库

13. 2.2.1 GPU虚拟化性能与效果自测对比业界方案性能数据自研vGPU 头部厂商1 头部厂商2 GPU虚拟化效果开源vCUDA 7000 6312.55 6408.39 6266.91 6067 6000 5000 4647.32 4662.89 4597.74 4532 平均单卡虚拟化率开发机显存超售率 300% 400% 整机GPU利用率提升业务成本优化 30% 50% 4000 3114.78 3116.23 3000 3073 2872.36 2000 1000 0 bs=32 实验参数 bs=64 bs=128 模型：tf_cnn_benchmarks、数据集：cifar10、model：resnet20 、资源规格：0.5卡 NVIDIA卡

14. 2.2.2 服务提效-GPU弹性扩缩容背景快速应对突发流量减少了人工干预频率简化GPU推理业务运维管理 GPU弹性扩缩容背景原生K8s不支持 GPU弹性扩缩原生功能缺失非生产实例无负载资源闲置造成浪费非生产环境 GPU资源浪费

15. 2.2.2 GPU弹性扩缩容方案 KEDA 技术方案：调整HPA Horizontal pod autoscaler Metrics adapter Controller 实例扩缩 Scaler 事件触发 1->n or n->1 0->1 or 1->0 GPU自动弹性扩缩容 = KEDA框架 + 自研的GPU- Scaler插件 + Prometheus + DCGM- Exporter(GPU利用率指标) 非生产环境默认开启：闲置实例自动缩容到0 GPU-Scaler 指标转换事件 Workload 指标查询监控指标采集存储 DCGM-Exporter Prometheus 80% 1小时/周资源不足告警单业务扩缩工作量

16. 2.2.3 多服务降本-训推潮汐部署背景服务运行稳定保障在线推理服务延时敏感训练任务需要稳态运行利用率痛点优化推理业务潮汐特征明显整机GPU 平均利用率偏低训练GPU 资源紧缺多机多卡训练整机需求增长训练资源缺口问题明显

17. 2.2.3 训推潮汐部署方案推理和训练整机分时复用在离线任务切换 (7:30-8:00) 整机腾空能力 = CronHPA(定时) + WorkloadSpread(分区部署) + Pod优先级缩容在线推理稳定运行 (8:00-23:30) CronHPA 定时扩缩缩容场景 Workload Cost-manager 自研配置稳定pod数：FixedCount workloadSpread 根据Pod与 Node拓扑 Subset 稳定离线训练运行 (0:00-7:30) Subset 潮汐所在节点实例数少的 Pod优先缩容推理整机腾空 (23:30-24:00) 资源池(稳定) 资源池(潮汐) Node-1 Node-1 整机GPU利用率提升推理业务成本降低 Node-2 Node-2 20+% 30% Node-N Node-N 期望Replica <= FixedCount在稳定池扩缩期望Replica > FixedCount在潮汐池扩缩刷新Pod 缩容优先级

18. 2.2.4 多机多卡提效-容器RDMA高性能网络背景大规模分布式训练和推理的需求训练和推理需要多机多卡网络通讯成为性能瓶颈减少CPU开销和降低网络延迟 RDMA跨节点零拷贝数据传输有效减少CPU开销和网络延迟 GPU容器结合RDMA网络平台需要提供完整解决方案

19. 2.2.4 容器RDMA高性能网络方案 K8s node app RDMA网络管理组件 rdma api rdma协议 RDMA容器相关组件： pod1 buffer Multus-CNI： Multus-CNI tcp协议 buffer sockets Calico-CNI buffer Pod网络协议栈 Sriov-CNI eth0 K8s node pod1 Calico-cni： app eth1 Sriov-Device-Plugin buffer host网络协议栈支持单容器多种网络创建。 eth1 基于veth创建网卡eth0对应underlay网络。 eth0 vf Kernel 基于vf创建网卡eth1对应rdma网络。 Spiderpool eth0 eth1 Sriov-cni： eth1 eth0 ROCE_V2\IB协议网络 TCP/IP流量在大规模训练和推理场景，业务提速20%-30% Spiderpool：管理网络池以及ip分配、路由策略配置。

20. 第三部分｜AI工程训练平台实践 3.1 训练平台整体架构 3.2 大规模训练稳定性实践 3.3 GPU利用率提升实践

21. 3.1 VTraining训练平台整体架构 VTraining训练平台是由vivo AI计算平台团队打造的一站式大模型训练方案，它面向算法工程师，提供模型开发、模型训练和海量样本存储等能力。产品蓝心小V 输入法全局搜索相册模型多模态大模型语音大模型语言大模型图像大模型训练平台模型开发开发机、jupyter、… 模型训练分布式训练、故障自愈资产管理镜像、数据、… 平台工具环境检测、模型转换、… 容器资源管理编排调度 GPU虚拟化自动化运维算力高性能计算高性能RDMA网络高性能训练存储

22. 第三部分｜AI工程训练平台实践 3.1 训练平台整体架构 3.2 大规模训练稳定性实践 3.3 GPU利用率提升实践

23. 3.2.1 大规模训练稳定性实践-问题大规模训练依赖复杂的训练集群环境，任何环节出问题都会导致任务中断，问题定位、恢复困难任务调度训练过程基础设施常见问题行业案例同步训练，反复迭代加载模型加载训练样本 GPU计算训练通信保存模型计算网络存储调度 ECC 启动报错挂载异常千卡调度慢 GPU掉卡 Hang、超时读写异常调度异常慢节点网卡掉卡数据不一致无拓扑感知 NaN 性能抖动性能抖动知名头部公司千亿参数大模型的大规模训练任务，平均每 3小时触发一次意外中断。

24. 3.2.2 大规模训练稳定性实践-高频故障专项治理 GPU集群投入使用初期机器故障率高可通过高频故障专项治理使故障尽快收敛高频故障专项治理大规模测试诊断 GPU集群高频故障统计高频故障修复 ECC 故障硬件维修、替换 NaN 故障固件/驱动升级 GPU、网卡掉卡软件优化、bug修复

25. 3.2.3 大规模训练稳定性实践-故障处置流程完善任务故障不可避免，通过完善故障处置流程缩短任务中断时间，尽快恢复任务运行训练前基础环境预检测任务模拟测试风险问题剔除降低故障风险 HostPing主机检测 VCCL通信检测 GPU机器、网络等稳定性环境、配置、流程验证异常节点、慢节点等剔除环境配置修正训练中故障发现故障定位故障容错自动化容错基础设施监控指标异常任务状态、日志异常异常特征匹配、节点定位实时诊断（torch profile等）自动隔离故障自动重启任务新问题搜集分析异常特征库完善问题诊断能力增强训练后诊断增强

26. 3.2.4 大规模训练稳定性实践-效果与总结减少基础设施高频故障、完善任务故障处置流程，是保障千卡大规模训练稳定性的关键效果总结机器每天故障率大幅下降千卡任务有效训练时长达到行业一流水平机器每天故障率千卡任务有效训练时长 99.0% 2% 提高 • 不同环境、任务会触发不同的稳定性问题，GPU驱动、VBIOS固件、训练框架版本等需要匹配/适配大规模训练前，尽量剔除历史故障率高的机器 • 稳定的机器一般会一直很稳定，而历史故障率高的机器即使修复后，重复出现故障的概率也比较大 39% 降低 GPU集群由不稳定到稳定，需要一个软硬件磨合过程 60% 0.19% 提升任务有效训练时长需结合基础设施、训练框架、平台容错机制综合优化 0.1% 治理前治理后优化前优化后 • 例如秒级监控告警能力、checkpoint持久化策略、秒级故障隔离、任务重调度等方面的持续优化

27. 第三部分｜AI工程训练平台实践 3.1 训练平台整体架构 3.2 大规模训练稳定性实践 3.3 GPU利用率提升实践

28. 3.3.1 GPU利用率提升-业务背景及问题差异化的业务场景下GPU资源难以高效利用，利用率提升挑战巨大 GPU场景常见业务形态及特点训练任务推理业务数据生产开发调试 GPU利用率高白天GPU利用率高 GPU利用率高 GPU利用率低周期性占用资源夜间GPU利用率低资源需求大长期占用资源大部分不能中断资源优先级高可随时中断性能要求低偶尔出现碎片化空闲资源夜间GPU 利用率低资源需求大难申请 GPU利用率长期低下

29. 3.3.2 利用率提升措施一：低优任务训练任务场景偶现的碎片化空闲资源，可通过低优数据生产任务进行充分利用在不影响正常训练任务调度的情况下，通过低优任务充分利用GPU资源训练偶现碎片化空闲资源低优数据生产任务调度正常任务随时抢占低优资源机器1 GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU 机器2 GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU 机器3 GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU 机器4 GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU GPU time1 time2 GPU 正常任务使用GPU卡 GPU 空闲GPU卡 time3 GPU 低优任务使用GPU卡

30. 3.3.3 利用率提升措施二：训推潮汐部署推理业务在夜间流量低峰期可释放大量GPU资源，可通过训推潮汐部署给离线业务复用通过训推潮汐部署，将夜间推理流量低峰期缩容机器腾挪到离线，白天再腾挪回在线白天流量高峰期（HPA扩容）夜间流量低峰期（HPA缩容）白天流量高峰期（HPA扩容）夜间流量低峰期（HPA缩容）白天流量高峰期（HPA扩容）推理流量时间离线GPU资源池资源池水位离线GPU资源池离线GPU资源池离线GPU资源池离线GPU资源池在线GPU资源池在线GPU资源池在线GPU资源池在线GPU资源池在线GPU资源池 *箭头代表GPU机器腾挪方向，推理业务通过HPA水平扩缩容实现GPU资源扩缩容

31. 3.3.4 利用率提升措施三：GPU虚拟化开发任务长期独占GPU资源且利用率低可通过GPU虚拟化技术实现资源超卖，减少资源占用量，释放冗余算力不开VGPU 开启VGPU 单机4卡GPU机器虚拟出16个VGPU GPU1 VGPU 优点支持1:2、1:4超卖 vGPU vGPU vGPU vGPU GPU2 vGPU vGPU vGPU vGPU 用内存补充显存不足 GPU3 vGPU vGPU vGPU vGPU 用户无感知使用 GPU4 vGPU vGPU vGPU vGPU 适用性能要求低场景开启 VGPU 通过vivo自研VGPU虚拟化技术，减少开发任务占用的物理GPU卡数

32. 3.3.5 利用率提升总结与规划平台通过低优任务、训推潮汐部署、GPU虚拟化等策略深度适配差异化业务场景特性，实现资源高效复用，GPU利用率提升明显，接近行业一流水平训练任务数据生产 AI整体GPU 利用率提升低效任务治理低效资源盘活效果规划成本/账单输出均值奖励与惩罚措施 5% 开发任务推理服务 (绝对值) 对GPU利用率进行综合治理，让稀缺的GPU资源发挥更大价值 ……

33. 目录 Part 01 第一部分｜vivo GPU平台架构 Part 02 第二部分｜GPU容器能力实践 Part 03 第三部分｜AI工程训练平台实践 Part 04 第四部分｜vivo GPU未来展望 CONTENTS

34. 4. vivo GPU未来展望让业务更加稳定、资源利用更加高效训练平台秒级预警动态容错全流程提效精细运营联邦调度 GPU混部异构芯片 GPU池化容器平台

35. 谢谢！Q&A