团队维护的 Prometheus 告警规则最近正以惊人的速度膨胀。最初基于静态阈值的规则简单有效,但随着系统复杂性增加,我们开始遇到瓶颈。cpu_usage > 90% 这样的规则无法捕捉到那些多指标之间微妙的、非线性的关联异常。例如
2023-10-27