Mahalanobis(马氏)距离

当提到距离的时候,一般都会想到欧氏距离,更远一些还会想到范数,我们熟悉的欧式距离虽然很有用,但是也有明显的缺点,它将样本的不同属性(特征)之间的差别等同对待,但是在很多时候,样本的不同属性对于区分样本有着不同的重要性,此时,我们需要采用不同的距离函数,Mahalanobis(马氏)距离就考虑了样本各种特征之间的联系。
Mahalanobis(马氏)距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效计算两个未知样本即相似度的方法。其实欧式距离是马氏距离的特殊情况。马氏距离考虑了样本各种特征之间的联系(例如一条关于身高的信息会带来关于体重的信息,两者之间具有关联性),并且独立于测量尺度。
马氏距离定义为两个服从同一分布并且其协方差矩阵为S的随机变量之间的差异程度。假设有M个样本X1~Xm,协方差矩阵S,则向量Xi与向量Xj之间的马氏距离计算公式为:

这里写图片描述

从该定义公式可以明显看出,当协方差矩阵S为单位矩阵时(各个样本向量之间独立同分布),此时的马氏距离就变成了欧式距离。若协方差矩阵是对角矩阵,马氏距离就成了标准化欧式距离。
马氏距离的优缺点:
优点:
(1) 不受量纲的影响,两个样本之间的马氏距离与原始数据的测量单位无关;
(2) 由标准化数据和中心化数据计算出的两个样本之间的马氏距离相同,即分别对两个样本进行标准化和中心化,两种方式计算得出的马氏距离相同;
(3) 马氏距离能排除变量(样本)之间相关性的干扰
缺点:
(1) 马氏距离的计算是建立在总体样本的基础上,即如果拿同样的两个样本放入不同的总体中,计算得出的样本间的马氏距离通常是不同的;
(2) 在计算马氏距离的时候要考虑协方差矩阵是否可逆,而且协方差矩阵会使马氏距离计算不稳定
马氏距离的性质:非负性、对称性和三角不等式。
马氏距离在回归分析中是测量某一自变量的观测量与同一自变量所有观测量平均值差异的统计量,该值越大,说明该观测量为影响点的可能性越大。

你可能感兴趣的:(机器学习,统计学,距离,机器学习)