基于 Alertmanager 设计告警降噪系统,成本低可落地
摘要
转转基于Prometheus落地了一体化监控系统,并自研了告警系统,但研发同学每人每天都会接收到很多告警,导致重要的告警被淹没,部分同学会选择直接屏蔽掉所有告警,进一步加重问题。告警过多等同于没有告警。
另外,多个告警之间通常具有一定的关联性,如:SQL执行错误告警导致异常日志过多告警。而面对杂乱无章的告警,很难快速分析出告警的根本原因。
告警降噪治理十分重要,在此背景下,我们基于Alertmanager扩展研发了转转告警中心。