异常值检测

异常检测的使用场景

1)信用卡欺诈:盗刷信用卡的行为与持卡人的正常消费不同。
2)入侵检测:通过监视系统和网络异常行为来检测对收集信息的入侵。
3)生态系统失调:预测极端气候的似然度和成因。
4)疫苗接种:接种疫苗后,散布在城市各医院的少量病例是异常,可能揭示该城市接种程序方面的问题。
5)医疗:不寻常的症状或检查结果可能指出潜在健康问题。

异常值检测方法

1)基于统计学:假设数据满足某种分布(如正态、泊松等),然后计算数据的分布概率;如果概率很低,则为异常值。高维数据时,性能可能很差。
2)基于临近度:用k近邻的距离均值表示异常度。
- 1.算法简单
- 2.时间复杂度O(m2)
- 3.对K值高度敏感
- 4.无法处理不同密度的簇
3)基于密度:用k近邻的距离均值的倒数表示密度,与临近度有相同的问题,不能识别不同密度的影响,故使用相对密度=x点的k近邻密度/x的最近邻点y的密度。
4)基于聚类技术:先聚类,再用元素属于簇的强度判断是否是异常点。
- 1.评估对象属于簇的程度:基于距离,包括到最近质心的距离和相对距离(用来处理不同密度的影响)
- 2.离群点对初始聚类的影响:怎么找簇?要找离群点,不能让离群点对簇的定为有影响。
- 3.使用簇的个数:簇越多,离群点越少。

其他:

正太分布的概率密度函数: 68-95-997。

轮廓系数:(对象到最近邻外簇的平均距离-对象到簇内的平均距离)/max(对象到最近邻外簇的平均距离,对象到簇内的平均距离)
轮廓系数都是平均距离比较;可以更好的表示一个对象离2个簇都很近时的情况。
轮廓系数、相对距离类的问题:绝对距离更有意义时。如心跳频率,如果超过一个正常的范围,就应该判定为异常,不能因为变化率不足不判定,尤其如果病人心跳一直不正常,但变化率小的时候。

问题:

1、常见分布:高斯分布、泊松分布、二项式分布

&:二项式分布的4个特点:
- 1.做某件事的次数是固定的,用n表示
- 2.每一次事件的都有2个结果(成功或失败,二项式么)
- 3.每一次成功的概率是相等的,成功的概率用p表示
- 4.要求的:成功x次的概率。
公式:P(x)=Cnx*power(p,x)power(1-p,n-x)。
以抛硬币为例,是典型的二项式分布。假设抛5次,求3次为正的概率。
P(3)=C5/3*power(0.5,3)*power((1-0.5),(5-3))=0.3125。
公式理解:2个独立事件同时发生的概率是各自概率相乘,则3次为正,2次为反的概率就是power(0.5,3)*power((1-0.5),(5-3));同时,3次为正可以发生在5次的任何3次中,故有C5/3的样式存在,故要乘这个倍率。
Ps:C5/3表示组合。

泊松分布的3个特点:
1.事件是独立的
2.在任意相同的时间范围内,事件发生的概率是相同的
3.要求的是:在某个时间范围内,发生事件x次的概率
公式:

几何分布的4个特征:
1.做某件事的次数是固定的,用n表示
2.每一次事件的都有2个结果(成功或失败,二项式么)
3.每一次成功的概率是相等的,成功的概率用p表示
4.要求的:做到第x次才成功的概率。
公式:P(x)=power(1-p,n-1)p
公式理解:前n-1次失败,第n次成功的概率。

2、Mahalanobis距离:

3、K-means的时间空间复杂度是线性的?

&:O(mtk);m是对象个数;t是迭代次数,不定;k是质心数。

4、协方差、相关系数:

&:Cov(x,y)=E[(X-Xu)(Y-Yu)] ;各变量与其均值的差的乘积的和;可以反映2个变量是否同向变化。
协方差>0,则为正向相关;协方差<0,则为负向相关;协方差=0,则不相关。
相关系数=Cover(x,y)/(x方差*y方差)
相关系数除以x,y的方差是摒弃了x,y的度量单位和变化幅度,只表示正向相关度。
方差:是个变量与其均值差的平方和;
协方差:是变量与其均值差的乘积的和。

术语

Euclidean distance:欧几里得距离
cosine similarity measure:余弦相似度

你可能感兴趣的:(数据挖掘,DM,异常检测)