距离是数据挖掘领域中一个非常重要的概念,表示了样本之间的相似程度。距离的选择对于样本的区分结果至关重要。距离越接近,样本越相似。分到一类的可能性越大。
常见的距离包括欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦距离、马氏距离、杰卡德相似系数、皮尔逊相关系数、汉明距等。根据距离的提出方式和计算方法,可将其分成几何距离、统计距离和信息论距离三大类。
几何距离主要考虑两个方面,一是向量的长度差异,二是向量的夹角差异。
欧氏距离是最常见的距离之一,来源于几何空间下两点距离。
两个样本间的欧氏距离定义如下
曼哈顿距离由闵可夫斯基提出,又名出租车距离。顾名思义,该距离表示出租车在两点间需要行驶的距离。
两个样本的曼哈顿距离定义如下
切比雪夫距离表示了在某一方向的最大差距。比如国际象棋中的王从 (x1,y1) 走到 (x2,y2) ,一共需要 max{|x1−x2|,|y1−y2|} 步。
两个样本的切比雪夫距离定义如下
闵可夫斯基距离是一组距离定义,其表达方式如下
闵式距离是将向量的距离和方向综合分析,得到差距。对于距离和方向的加权由幂指数 p 来调整。
闵式距离计算方便,表达简单,缺点是把向量的每个维度等同对待,无法良好的区分出维度的差异。在此之上,提出了标准化闵式距离。
标准化闵式距离实将样本标准化处理后再进行距离求解,表达方法如下:
余弦距离采用了余弦的思想,在K维空间下计算了两向量的夹角。夹角越大,两向量方向越相离。余弦距离是数据分析中最常用的距离计算方法,其表达如下
统计距离主要在样本的数值特性上进行分析,判断向量的统计学差异。
马氏距离应用了统计学方法,引入协方差进行计算,其表达如下
杰卡德相似系数表示两个集合的相似程度,其表达如下
皮尔逊相关系数是非常重要的统计系数之一,表示了样本的相关程度。其表达如下
信息论距离主要在编码上进行考虑,在向量数值之下进行分析。
汉明距离是信息论中的一个概念,表示两端二进制信息中不同位的个数。举例来说,1011和1101的汉明距为2。当样本可以被编码为一段二进制信息时,则可以用汉明距进行衡量。