python 异常值分析

1、简单统计量分析
常用的是最大值和最小值,用来判断这个变量的取值是否超出合理的范围。
2、3σ原则
正态分布中:σ代表方差,μ为平均值,x=μ即为图像的对称轴
标准正态分布概率:
数值分布在(μ—σ,μ+σ)中的概率为0.6526
数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
数值分布在(μ—3σ,μ+3σ)中的概率为0.9974
正态分布又叫高斯分布,
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差不超过3倍标准差的值。
在正态分布的假设下,距离平均值3σ之外的值出现的概率为p(|x-λ|>3σ)≤0.003 属于个别的小概率事件
如果数据不服从正态分布,也可以用远离平均值的多少倍来描述异常值.
3、箱型图分析
箱型图提供异常值标准:
小于下四分位数-1.5*四分位数间距  或者大于 上四分位数+1.5*四分位数间距
其中四分位数间距等于 上四分位数-下四分位数




 

你可能感兴趣的:(Python)