混合云架构下的小红书联邦集群弹性调度实践和探索

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 孙伟祥
2. 目录
3.
4. 背景说明
5. 业务视角的混合云架构  多云提供商:阿里云、腾讯云、 AWS、华为、火山、自建云  多区域部署:上海、南京、杭州、 芜湖、乌兰、海外  多形式部署:在线核心链路异地多 活;离线链路、LLM推理全域部署
6. 理想中资源视角的混合云架构 现实中资源视角的混合云架构
7.         核心解决思路 向上对业务屏蔽集群概念 向下对资源调度合池统一
8. 解决方案
9. 核心特性  统一接入界面  统一资源调度  统一应用编排
10. 核心特性   架构实现   
11. 多层调度 预调度 • • • • • • • •
12. 核心特性   
13. 跨集群弹性    
14. 方案落地
15. 单个服务处理的相关数据上10T 数据分批等需求导致编排复杂度增加 搜广推等模型计算量巨大 搜广推结合LLM已成为业务架构新范式
16. 有状态工作负载能力增强  支持生成指定下标的Pod,灵活分配 Pod 下标  支持以下标格式在Status中汇总被管控Pod的状 态,便于多集群精准感知负载状态 多集群调度器支持有状态服务调度编排  根据单集群工作负载Status精细化编排调度,为 用户提供和单集群视角下一致的使用体验  多集群重名 Pod 冲突处理,保证多集群下 Pod Name 唯一性 联邦Rollout组件支持有状态服务滚动发布  根据单集群工作负载Status实现多集群工作负载 滚动发布,提供单集群一致的发布体验
17. 跨云弹性解决自建云困境  自建机房二层网络与云上异 构,集群无法跨机房添加云 上节点  “TT难民”流量来的突然,自 建机器采购周期难以满足突 增流量  内部微服务体系调用链长且 服务,入口流量调配风险大  通过联邦将突增副本需求跨 云分发到云上集群,使得 IDC近似云上“无限弹性”
18. 统一GPU推理资源池  全局层面统一弹性副本编排  有效合并部署组数量,提高 运维效率 联邦前 联邦后  哪里有卡去哪开机器导致资源分散  统一资源池,用户部署不再关心具体 集群甚至地域、提供商  部署跟着资源走导致部署割裂,,每个 部署组 HPA 只少保留1个副本  缺乏全局层面视角编排和弹性能力, 造成分配率和利用率低下  统一副本编排和调度,充分利用跨集 群资源,提升弹性能力  有效减少空转服务,充分释 放已分配未使用 GPU,提升 GPU 利用率  充分利用集群间碎片资源, 提升 GPU 分配率
19. 多级缓存解释  对象存储作为底层,存储全 局索引、模型等数据  机房内利用碎片资源进行 p2p 加速和热点数据缓存, 减少跨机房访问延迟和带宽  单 Pod 利用云盘或者本地盘 缓存服务关注的热点数据, 避免发布、重启后重复拉取  一些数据引擎服务、LLM 推 理服务 Tmpfs volumes 预加 载数据和模型,结合原地升 级能力,真正做到零 copy,做到极致效率
20. Tmpfs Volumes + 原地升级 重建升级 Pod Pod container v1 Container memory Sandbox ( Network & Storage ) Recreate Pod container v2 Container memory container v1 Remote inPlaceUpdate container v2 Sandbox ( Network & Storage ) Memory-Based EmptyDir (tmpfs volumes)
21. 联邦集群支持在离线GPU统一资源池调度  联邦集群调度、二次调度保证在离线GPU服务能够充分利用跨集 群资源,离线服务做到哪里有资源就去哪调度 多级缓存助力在线实例弹性加速  StandBy 实例通过多级缓存加速预加载模型和数据到 Tmpfs  在线任务需要扩充计算资源是,StandBy 实例迅速加载模型到 GPU,实现模型的秒级弹性 GPU 卡“超分配”与计算资源保障  一卡多分配,混部 Agent 保证显存不超卖(通过驱逐离线)
22.
23. 总结回顾  核心问题:资源割裂,效能低下  解决路径:集群联邦,统一资源池  落地探索:搜推与LLM的落地与探索 规划展望  场景覆盖:AI训练 & Spark  能力迭代:调度决策上移等
24.
25.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-28 05:37
浙ICP备14020137号-1 $访客地图$