一种基于滑动窗口的阈值告警计算方法

在无论系统监控领域(cpu、io、访问量等),还是在业务监控领域(交易金额、短信电话拨打量、天气数据等),通过监控探针(工具)采集监控值,然后对监控采集值进行分析预测、智能预警等。这里讨论在监控系统告警中的一种基于滑动窗口的阈值告警计算方法,在AIOPS兴起来之前,在监控领域,常用的就是阈值告警的方式,在AIOPS建设期间,也会结合AI异常检测和用户自定义阈值,当AI过于灵敏(无实际业务影响的情况下告警)这时候通过设置一个静态阈值来过滤掉非必要的告警,比如采集值和阈值之间的对比来设置告警级别,高级别告警进行及时处理,低级别告警关注即可。

滑动窗口:以固定窗口大小往某个方向移动,计算范围限制在这个窗口内。

阈值告警:阈值,即一个划分正常与异常的界限,可以是一个确定的点,也可以是一个范围内,当采集值超过了这个界限,既把这个采集点作为异常点。

滑动窗口的阈值告警:在一个窗口内,当异常点的个数达到一定数量(个数根据具体的监控指标业务经验来配置),就在这个窗口期产生一个原始告警。

通过如下案例来来详细了解整个过程,当采集值大于阈值90的时,当前采集点认为是异常点,设置窗口的大小为5个采集周期,在窗口内,产生3个以上异常点,认为这个窗口期产生一个原始告警。在第0个窗口期中,所有采集点的采集值小于90,都为正常点,该窗口不产生原始告警。

一种基于滑动窗口的阈值告警计算方法_第1张图片

在第7个采集点以及第八个采集点,着两个的采集值>=90,两个异常点,但是在8之前的窗口期内的异常点还是小于3个(窗口1包含一个,窗口2包含两个),也不会产生原始告警。

一种基于滑动窗口的阈值告警计算方法_第2张图片

在第9个采集点到18个采集点之间的窗口的异常点都大于3个,窗口3到窗口12之间的所有窗口内会产生原始告警,窗口3包含3个,窗口4包含4个,窗口5包含5个,窗口6、窗口7、窗口8、窗口9包含6个,窗口10包含5个,窗口11包含4个,窗口12包含3个。

一种基于滑动窗口的阈值告警计算方法_第3张图片

窗口13都窗口24内的异常点都小于3个,无原始告警产生。

原始告警在经过告警压缩、屏蔽等处理之后再送达到相应人员。

 

 

 

 

 

 

 

你可能感兴趣的:(经验分享,运维,devops)