“哨兵” 监控--大规模任务流监控的设计与实现

摘要

集团经营日报的产出基于整个集团的各个BG数据,数据链路经过清洗过滤、逻辑加工、统计汇总等步骤,并在发送之前会针对产出数据进行一致性、完整性、波动性等⼀系列校验,校验通过后,采用更新数据库中最⼤有效数据⽇期维表的形式,经过BI工具帆软扫描感知后进⾏推送。在整个过程中涉及数据流转非常复杂,上游任务数量超过2300个,任何⼀个任务出现异常,如若不能及时处理都会影响⽇报产出的时效性,因此,必须在第⼀时间监控到异常,对异常问题进⾏快速定位并作出相应处理。

⽇报相关数据任务接⼊了星河平台的基线监控,能够通过设置承诺完成时间和预警余量,在任务链路无法在承诺时间完成时触发报警,对数据链路保障带来了⼀定的帮助。基线监控在⼀定程度上满⾜集团⽇报监控场景的需要,但目前流程存在数据校验如果不通过,会kill后续任务来阻断链路,并触发⼈⼯确认流程的的场景,在这种情况下,基线监控会将失败任务作为异常进⾏报警,同时⼈⼯确认页面为内网服务器部署,必须连接VPN才可访问,操作步骤繁琐且效率不⾼,其次,所有主题经营⽇报发送后没有⼀个统⼀的反馈,容易出现日报漏发的情况,尤其当主题数量上升后,人工统计确认所有日报是否正常发送完成也是⼀件耗时耗⼒的⼯作。

针对上述背景,基于企业微信开发了“哨兵”监控系统,将任务链路实时监控、校验⼈⼯确认和⽇报推送统计这⼏个主要的业务场景所需功能融合起来,结合更加定制化的的监控策略,辅以任务调度、异常任务统计等衍⽣功能,优化了整个⽇报产出流程的异常监控和问题排查,提⾼了处理效率,并且提升了日报推送的准点率。

欢迎在评论区写下你对这篇文章的看法。

评论

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-07-04 02:19
浙ICP备14020137号-1 $お客様$