利用正态分布进行异常点检测

利用正态分布进行异常点检测

风控中安全中我们需要检测异常点,异常点对于黑白样本区分,模型评价,数据分析都具备重要的意义。本文主要就利用正态分布检测异常点的思想进行介绍。

核心思想

正态分布实际上是一个自然现象,很多事件都属于正态分布,比如人的身高,考试成绩,血压等。利用事物自身分布满足正态分布的特点,如果出现小概率事件(概率低于 0.5%),那么该事件被认为异常点

拿标准的正态分布来说,三个标准差(σ)覆盖的范围内,可以覆盖 99.7% 的数据,那么在 3σ 以外的数据就可以认定为异常点。

利用正态分布进行异常点检测_第1张图片

什么样的数据符合正态分布

表面上看,数据的分布直方图符合"钟形图"即是正态分布,比如:
利用正态分布进行异常点检测_第2张图片
但是往往我们拿到的数据,可能本身就含有杂质,比如:
利用正态分布进行异常点检测_第3张图片
我们仅仅通过图形观察,没有做一定处理的情况下,很难判断一个数据的分布是否属于正态分布。

那么正态分布的定义又是什么?

中心极限定理:多个独立统计量的和的平均值,符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,加总后的结果的平均值就是正态分布。

这里不同的因素之间是独立,不同因素的事件分布可以不同。
利用正态分布进行异常点检测_第4张图片
上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

现实的数据分析中,我们很难从直方图上面观察数据是否符合正态分布,只能从原理上面去理解数据本质是否符合正态分布,再配合白样本进行试验,确认数据是否满足正态分布。

标准正态分布中,样本均值为 0,标准差为 1。当然现实的例子中大部分数据的均值都不是 0,标准差可能也有较大的区别。为了更好的体现不规则的数据分布,需要利用中位数作为分界点。

利用箱线图筛选异常点

箱线图和小提琴图可以很好的描述数据的分布,箱线图的定义更有利于我们筛选异常点。

小提琴图:
利用正态分布进行异常点检测_第5张图片
箱线图:
利用正态分布进行异常点检测_第6张图片
箱线图一共有 6 个要素点,分别是:

  • q1: 1/4 分位点,1/4 分位点之前的数据占总样本概率的 25%
  • q3: 3/4 分位点, 3/4 分位点之前的数据占总样本的 75%
  • 中位数:中位数之前的数据占总样本的 50%,也是 q2
  • IQR 是分位点q1、q3 之间的距离,IQR = q3 - q1
  • 上限位:q3 + 1.5 * IQR
  • 下限位:q1 - 1.5 * IQR

标准正态分布下,上下限位外样本所占的比率为 0.7%,这个限制比 3σ 原则宽松(0.3%)。

小概率事件的定义是概率小于 0.5%,那么 3σ 限制下,区间外的事件一定是小概率,而利用箱线图部分事件可能不是小概率事件,具体取多少作为分界线,不同的数据分布,可能有有不同的阈值。

箱线图使用了中位数作为中心点划分,而标准正态分布是利用了均值作为中心位,这两者是有区别的,中位数对于异常点的敏感性要低于均值,换句话说,在可能含有异常点的数据中,中位数更具有代表性。

总结

本节主要描述了利用正态分布进行异常点检测的核心思想,利用 3σ 原则和箱线图的上下限进行异常点检测区间划分,进而找到异常点。实际风控安全中,我们涉及的数据维度很多,有些是独立的,有些是相互的,我们需要寻找到合适的场景利用正态分布检测异常,后续章节中我们会尝试评估什么样的数据维度可以用此检测方法。

欢迎关注茶歇小栈公众号 ,风控安全不迷路
利用正态分布进行异常点检测_第7张图片

你可能感兴趣的:(业务安全,spark,安全,数据分析,机器学习,大数据)