动态阈值_如何设置数据看板(大屏)数据异常报警的动态阈值

当数据看板的数据来自基于多个异构数据源,而且需要根据细粒度数据做统计计算时,由于网络、服务器、数据库、传感器等影响,会出现数据更新中断及数据不完整情况。这种情况如果不及时处理,显示的异常数据会耽误或误导用户的决策。而及时处理的前提是及时、准确地报警。及时、准确报警的前提是正确的阈值设置。

阈值设置有固定和动态两种。

我们在一个项目中,开始针对每个指标(不同累计流量)设定固定上下限值作为阈值,低于下限或高于上限就报警。在实际运行中发现,数值异常的报警太多,比如有一天产生了22条消息,其中9条为数据超过阈值。

现在决定采用动态阈值。动态阈值是对比前三天的移动平均值,超过一定阈值报警。下面介绍一个这个阈值设定方法。

首先,收集历史数据作为样本数据进行分析。选择9个累计流量的指标,每个指标一天一个数据:

动态阈值_如何设置数据看板(大屏)数据异常报警的动态阈值_第1张图片

其次,分别计算样本数据中报警样本数量。报警标准预置两个:1、偏差值超过平均偏差值的2倍;2、报警数为总样本数据的10%。

1、 预设阈值计算报警样本占比

计算样本中每个值与前三天移动平均值的偏差值D,再获得D的平均值AD,按倍率系数为2(阈值=2xAD)的标准设置阈值T,超过阈值的报警。

经过实际数据测算,按此标准阈值的报警样本数占总样本数的10%左右。以下是9个指标实际数据的测算结果:

动态阈值_如何设置数据看板(大屏)数据异常报警的动态阈值_第2张图片

2、 预设报警样本占比计算阈值

设置了三种报警样本数占比:10%、5%、2%,分别计算阈值T相应地高于及低于AD绝对值的倍数。

动态阈值_如何设置数据看板(大屏)数据异常报警的动态阈值_第3张图片

根据上表的计算,将报警样本数设为10%,阈值为偏差平均值的2倍是比较合适的。

如果觉得10%的报警过于频繁,可以设为5%或2%,这样对应的倍数为4倍和6-7倍。

以上为每日累计数据的阈值设置。对于实时数据,则按数据更新时间,对应前三天同个时间数据的移动平均值来计算阈值和判断数据异常。如果时间间隔为分钟,每天共有24*60 = 1440个阈值需要计算。

你可能感兴趣的:(动态阈值)