同程私有云平台的弹性计算架构设计与落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 同程私有云平台的 弹性计算架构设计与落地实践 彭涛 同程旅行 架构师
2. • 出行需求快速增长带来的挑战 • 私有云的弹性计算 自动计算服务弹性阈值 • • • • • 峰值流量下保障服务稳定性 弹性计算降本增效 自动漂移解决单机稳定性 一些展望和总结
3. 出行需求快速上涨提出的挑战 公司流量上半年多次突破历史最高水位
4. 在云原生的道路上任重而道远 目前公司完成了核心业务的容器化,正在向云原生方向进行下一步的演进
5. 弹性计算的整体框架
6. 弹性计算的产品形态 水平扩缩容 链式扩缩容 潮汐扩缩容 自动漂移 垂直扩缩容
7. 评估服务压力情况的困难点 运维难: 压测成本高, 时效性差 厂商难: 接入成本高 指标定义难 运维压测需要高度侵入 云厂商只能做简单的测 代码,但是随着代码的 算。或者交给业务自身 去判断,接入成本较高 迭代指标随之失真 研发难: 操作成本高 影响范围广 研发评估需要联动上下 游一起 操作成本很大
8. 服务画像自动预测应用阈值 1.使用类似Google的Autopilot的时间滑动窗口算法建设的服务画像 2.利用时序数据更新和预测应用阈值和压力情况。
9. 峰值流量的表现形式 活动流量:活动临时叠加的峰值流量 日均流量: 随着业务增长导致 的服务流量快速增 长
10. 如何在峰值流量下保障服务稳定性
11. 混合云架构下的库存管理
12. 混合云架构下的扩容顺序管理
13. 大规模扩容带来的压力
14. 弹性扩缩容能够做到多快?
15. 弹性计算如何节省成本 降低采购成本 减少应对峰值流量所需 的机器采购节省成本 合理资源应对流量 缩容线上服务实例, 减少无用资源的浪费 盘活资源利用率 进行离在线混合部署
16. 资源利用率目前的卡点 流量呈现波峰波谷的形式,但是承载流量的在线实例数量一直不变
17. 进入到资源使用优化深水区-ScaleZero
18. ScaleZero的实现考量 规避慢启动 Scale逻辑上将 在线实例“缩容” 实际上只是 剔除负载或者Stop掉 流量扛得住 搭配 垂直扩缩容、水平多集 群扩容、链式扩容 解决 服务稳得很 建立以业务SLO为基础 的服务画像体系,对于 服务的承载能力做准确 评估
19. 进一步节省成本-实时在离线混合部署
20. 实时离在线混合部署的调度架构设计
21. 实时离在线混合压力感知处理 传统的Load、IOUtil 基于业务的服务 等用于物理机稳定性 画像结合实时数 保障的保底驱逐依据 据判断服务压力 结合CgroupV2的PSI, 新型的eBPF的hook 探索获取更详细的压力信息
22. 集群规模庞大-服务稳定性问题开始凸显
23. 容器平台的服务稳定性评量标准 服务中断率: 部署在平台的服务因非代码问题导致的服务中断时长/ 原本应该正常服务的时长
24. 不能忽略-稳定性保障
25. 服务自动漂移WorkFlow
26. 一些展望与总结 eBPF 底层资源 细粒度管理 干扰 避让 Cgroup V2 存算 分离 容器 运行时 有状态容器 弹性扩缩容 预测算法
27.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-24 00:35
浙ICP备14020137号-1 $Map of visitor$