myqkly
本站致力于IT相关技术的分享
基于 Scikit-learn 和 Prometheus 构建可测试的实时指标异常检测服务 基于 Scikit-learn 和 Prometheus 构建可测试的实时指标异常检测服务
团队维护的 Prometheus 告警规则最近正以惊人的速度膨胀。最初基于静态阈值的规则简单有效,但随着系统复杂性增加,我们开始遇到瓶颈。cpu_usage > 90% 这样的规则无法捕捉到那些多指标之间微妙的、非线性的关联异常。例如