cover_image

降本增效之算力灵活调度篇

申海龙 百胜技术团队
2024年01月29日 10:20

随着人工智能、大数据和云计算等技术的发展,算力需求急剧增长,但资源分布不均。东部地区虽然拥有大量的数据中心和云服务商,但却面临用电成本高、土地资源紧张、碳排放压力大等问题;而西部地区虽然有充足的清洁能源和低价用电,但缺乏数据和应用场景,难以吸引算力投资。如何实现东西部算力的高效互补和协同联动,是国家提出的“东数西算”战略的核心目标。

尽管向西转移算力可以降低成本,但企业是否具备灵活调度能力则成为关键因素,并且不同行业对算力的运作需求也不尽相同。接下来将分享百胜中国作为餐饮行业代表在算力灵活调度方面的探索与实践。


01


现状分析


以下是百胜某活动某服务的CPU监控曲线




图片



餐饮行业都有自己的流量特性,结合如上CPU监控曲线,我们可以得出以下结论:

  1. 一天之中CPU的峰值<40%,谷值<5%

  2. 当日22:00~次日10:00以及当日13:00~16:00之间共15小时,CPU使用率<10%

  3. 一天中近2/3的时间,3/4的CPU资源可以空余出来挪作离线计算、任务调度等场景使用

02

先决条件

要实现算力的灵活调度,对基础设施、配套工具、系统架构等都有较高的要求,只有满足了这些先决条件,才能实施下一步。

  1. 各业务系统、离线计算、任务调度等服务都已经容器化部署,且都支持无状态部署

  2. 各业务系统、离线计算、任务调度等服务,可以5min内在一个IDC单元快速弹起

  3. 业务系统要有全面监控,故障时自动切转流量到正常单元,优先保障线上业务正常运作

  4. 要有调度失败时的监控报警以及备用方案

03

解决方案

一、多单元部署模式算力调度方案:



图片




对于进行了多级多单元隔离设计的系统,可以简单采取BY单元进行流量调度,然后对算力进行扩、缩容操作。

二、常见双机房算力调度方案:



图片




此方案需要服务支持无损扩、缩容,在此基础之上比如每天22:00将服务Pod数量从4n缩减到n,第二天10:00高峰期之前从n扩容到4n。

三、遇故障或者突发情况的解决方案:



图片





  • 流量低峰时,一个单元、机房出故障,可进行A/B互切流量

  • 流量高峰时,如果剩余单元、机房算力不足以抗全部流量,可让Pre环境抗部分流量

  • 当要搞活动、或者流量突然超过预期时,可利用公有云快速初始化算力,5min拉起一个单元进行分流

四、配套平台与工具



图片




  • 流控平台:自动或者手动对流量进行调度、限流等控制

  • 算力调度平台:对指定单元、机房的指定服务,根据设置策略可自动进行扩、缩容操作

  • 监控报警:对基础设施和系统进行全面监控,故障时及时报警并为流控平台自动调度流量提供信息

  • DTS:数据同步系统,可跨机房同步DB以及缓存数据

04

写在最后

未来,算力调度平台将面临更大的发展机遇和挑战。各种形式的算力调度平台如何充分发挥各自的作用,实现协同发展和共赢共享,是未来需要探索和解决的重要课题。如何提高各自算力调度平台的智能化、自动化、安全化、标准化等水平,是未来各方需要重点关注和研究的方向。





图片
关注百胜技术团队
如何支撑中国最大餐饮集团数字化平台建设?数亿消费者、近15000家门店背后有哪些技术在支撑?




继续滑动看下一个
百胜技术团队
向上滑动看下一个