混合云架构下的小红书联邦集群弹性调度实践和探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. 孙伟祥
2. 目录
3.
4. 背景说明
5. 业务视角的混合云架构
多云提供商:阿里云、腾讯云、
AWS、华为、火山、自建云
多区域部署:上海、南京、杭州、
芜湖、乌兰、海外
多形式部署:在线核心链路异地多
活;离线链路、LLM推理全域部署
6. 理想中资源视角的混合云架构
现实中资源视角的混合云架构
7.
核心解决思路
向上对业务屏蔽集群概念
向下对资源调度合池统一
8. 解决方案
9. 核心特性
统一接入界面
统一资源调度
统一应用编排
10. 核心特性
架构实现
11. 多层调度
预调度
•
•
•
•
•
•
•
•
12. 核心特性
13. 跨集群弹性
14. 方案落地
15. 单个服务处理的相关数据上10T
数据分批等需求导致编排复杂度增加
搜广推等模型计算量巨大
搜广推结合LLM已成为业务架构新范式
16. 有状态工作负载能力增强
支持生成指定下标的Pod,灵活分配 Pod 下标
支持以下标格式在Status中汇总被管控Pod的状
态,便于多集群精准感知负载状态
多集群调度器支持有状态服务调度编排
根据单集群工作负载Status精细化编排调度,为
用户提供和单集群视角下一致的使用体验
多集群重名 Pod 冲突处理,保证多集群下 Pod
Name 唯一性
联邦Rollout组件支持有状态服务滚动发布
根据单集群工作负载Status实现多集群工作负载
滚动发布,提供单集群一致的发布体验
17. 跨云弹性解决自建云困境
自建机房二层网络与云上异
构,集群无法跨机房添加云
上节点
“TT难民”流量来的突然,自
建机器采购周期难以满足突
增流量
内部微服务体系调用链长且
服务,入口流量调配风险大
通过联邦将突增副本需求跨
云分发到云上集群,使得
IDC近似云上“无限弹性”
18. 统一GPU推理资源池
全局层面统一弹性副本编排
有效合并部署组数量,提高
运维效率
联邦前 联邦后
哪里有卡去哪开机器导致资源分散 统一资源池,用户部署不再关心具体
集群甚至地域、提供商
部署跟着资源走导致部署割裂,,每个
部署组 HPA 只少保留1个副本
缺乏全局层面视角编排和弹性能力,
造成分配率和利用率低下
统一副本编排和调度,充分利用跨集
群资源,提升弹性能力
有效减少空转服务,充分释
放已分配未使用 GPU,提升
GPU 利用率
充分利用集群间碎片资源,
提升 GPU 分配率
19. 多级缓存解释
对象存储作为底层,存储全
局索引、模型等数据
机房内利用碎片资源进行
p2p 加速和热点数据缓存,
减少跨机房访问延迟和带宽
单 Pod 利用云盘或者本地盘
缓存服务关注的热点数据,
避免发布、重启后重复拉取
一些数据引擎服务、LLM 推
理服务 Tmpfs volumes 预加
载数据和模型,结合原地升
级能力,真正做到零
copy,做到极致效率
20. Tmpfs Volumes + 原地升级
重建升级
Pod
Pod
container v1
Container memory
Sandbox ( Network & Storage )
Recreate
Pod
container v2
Container memory
container v1
Remote
inPlaceUpdate
container v2
Sandbox ( Network & Storage )
Memory-Based EmptyDir
(tmpfs volumes)
21. 联邦集群支持在离线GPU统一资源池调度
联邦集群调度、二次调度保证在离线GPU服务能够充分利用跨集
群资源,离线服务做到哪里有资源就去哪调度
多级缓存助力在线实例弹性加速
StandBy 实例通过多级缓存加速预加载模型和数据到 Tmpfs
在线任务需要扩充计算资源是,StandBy 实例迅速加载模型到
GPU,实现模型的秒级弹性
GPU 卡“超分配”与计算资源保障
一卡多分配,混部 Agent 保证显存不超卖(通过驱逐离线)
22.
23. 总结回顾
核心问题:资源割裂,效能低下
解决路径:集群联邦,统一资源池
落地探索:搜推与LLM的落地与探索
规划展望
场景覆盖:AI训练 & Spark
能力迭代:调度决策上移等
24.
25.