几种常见距离总结

何为距离?

距离是数据挖掘领域中一个非常重要的概念,表示了样本之间的相似程度。距离的选择对于样本的区分结果至关重要。距离越接近,样本越相似。分到一类的可能性越大。

有哪些距离?

常见的距离包括欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦距离、马氏距离、杰卡德相似系数、皮尔逊相关系数、汉明距等。根据距离的提出方式和计算方法,可将其分成几何距离、统计距离和信息论距离三大类。

几何距离

几何距离主要考虑两个方面,一是向量的长度差异,二是向量的夹角差异。

欧氏距离

欧氏距离是最常见的距离之一,来源于几何空间下两点距离。
两个样本间的欧氏距离定义如下

d(x,y)=k(xkyk)2

其中, xkyk 分别为向量x和y的第k位的值。

曼哈顿距离

曼哈顿距离由闵可夫斯基提出,又名出租车距离。顾名思义,该距离表示出租车在两点间需要行驶的距离。
两个样本的曼哈顿距离定义如下

d(x,y)=k|xkyk|

切比雪夫距离

切比雪夫距离表示了在某一方向的最大差距。比如国际象棋中的王从 (x1,y1) 走到 (x2,y2) ,一共需要 max{|x1x2|,|y1y2|} 步。
两个样本的切比雪夫距离定义如下

d(x,y)=maxk|xkyk|

切比雪夫距的另一种表示如下
d(x,y)=limn(k|xkyk|n)1n

证明如下:
d(x,y)limn(k(maxk|xkyk|n))1n=maxk|xkyk|

d(x,y)limn(maxk|xkyk|n)1n=maxk|xkyk|

闵可夫斯基距离

闵可夫斯基距离是一组距离定义,其表达方式如下

d(x,y)=(k|xkyk|p)1p

p=1 时,表示曼哈顿距离
p=2 时,表示欧几里得距离
p 时,表示切比雪夫距离

闵式距离是将向量的距离和方向综合分析,得到差距。对于距离和方向的加权由幂指数 p 来调整。
闵式距离计算方便,表达简单,缺点是把向量的每个维度等同对待,无法良好的区分出维度的差异。在此之上,提出了标准化闵式距离。

标准化闵式距离

标准化闵式距离实将样本标准化处理后再进行距离求解,表达方法如下:

d(x,y)=(k|xkyksk|p)1p

其中 sk 为第 k 方向上的方差。事实上,标准化闵式距离就是对每个方向进行了加权。

余弦距离

余弦距离采用了余弦的思想,在K维空间下计算了两向量的夹角。夹角越大,两向量方向越相离。余弦距离是数据分析中最常用的距离计算方法,其表达如下

d(x,y)=cos(x,y)=xy||x||||y||

余弦距隐去了向量长度差异,只在向量方向上进行分析。对于定性而非定量的分析上具有良好效果。

统计距离

统计距离主要在样本的数值特性上进行分析,判断向量的统计学差异。

马氏距离

马氏距离应用了统计学方法,引入协方差进行计算,其表达如下

d(x,y)=(xy)S1(xy)T

马氏距离考虑了样本与整体的关系,两个样本的比较,在不同的整体中,得到的马氏距不同。但马氏距对样本和整体有要求,协方差的逆矩阵可能不存在。
马氏距考虑了向量的距离差和整体-样本关系,在方向差异上使用协方差进行表述,然而敏感度高。

杰卡德相似系数

杰卡德相似系数表示两个集合的相似程度,其表达如下

J(x,y)=|AB||AB|

杰卡德距离表达为
d(x,y)=1J(x,y)

皮尔逊相关系数

皮尔逊相关系数是非常重要的统计系数之一,表示了样本的相关程度。其表达如下

ρ(x,y)=Cov(x,y)D(x)D(y)

相关系数为1,则样本正相关,为-1,则负相关
皮尔逊距离表达为
d(x,y)=1ρ(x,y)

皮尔逊相关系数本质上是两个样本在统计学意义上的余弦。

信息论距离

信息论距离主要在编码上进行考虑,在向量数值之下进行分析。

 汉明距

汉明距离是信息论中的一个概念,表示两端二进制信息中不同位的个数。举例来说,1011和1101的汉明距为2。当样本可以被编码为一段二进制信息时,则可以用汉明距进行衡量。

你可能感兴趣的:(数据挖掘)