[数据挖掘]数学基础---距离度量方式(马氏距离,欧式距离,曼哈顿距离)

  • 马氏距离
  • 欧式距离
  • 曼哈顿距离
  • 参考资料

马氏距离

概念:马氏距离是由印度统计学家马哈拉洛比斯提出的,表示数据的协方差距离。它是一种有效的计算两个位置样本集相似度的方法。

马氏距离的定义:设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2,...,μm),协方差阵为=(σij),则样品X=(x1x2...,xm)与总体G的马氏距离定义为

d2(X,G)=(Xμ)1(Xμ)
m=1时,1=1σ2,所以
d2(x,G)=(xμ)2σ2

下面来谈个例子,关于马氏距离在距离判别的应用(例子来源自北大数学学院PPT,参考资料已经注明)。

例子:已知有2个类G1和G2,G1是设备A生产的产品,G2是设备B生产的产品。设备A的产品质量高,其平均耐磨度μG1=80,反映设备精度的方差σ2(G1)=0.25;设备B的产品质量稍差,其平均耐磨度μG2=75,反映设备精度的方差σ2(G1)=4。现在有一产品X0x_{0}=78$,试判断该产品是哪一台设备生产的?

直观的看,X0μ1的绝对距离近些,按距离最近的原则产品X0将被认为是A生产的。但是考虑到方差,这种判断是不合理的。

现在考虑用马氏距离来解决这个问题。
根据定义,此时的m=1
d2(x0,G1)=(xμ1)2σ21=(7880)20.25=16
d2(x0,G2)=(xμ2)2σ22=(7875)24=2.25
明显后者小于前者,所以为B生产。
可以这样理解这个例子:设备B生产的质量较分散,出现X0的可能性仍然较大。
马氏距离是一种相对于分散性的距离。

应该注意马氏距离如下的性质:

1.如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离。
2.马氏距离的计算是建立在总体样本的基础上的。
3.计算马氏距离要求总体样本数大于样本的维度。
4.当协方差矩阵的逆矩阵(样本在所处平面内共线),这种情况用欧式距离计算即可。

欧式距离

笔者在另外一篇回顾性的博文中,提到过范数的概念,点击博文链接机器学习之数学知识回顾。其实曼哈顿距离和欧式距离分别是L1h和L2范数。
定义:

L1(xi,xj)=(ni=1|x(l)ix(l)j|2)(12)

曼哈顿距离

曼哈顿距离也称为出租车几何,由赫尔曼-敏可夫斯基提出,如下图所示。两点直接的直线距离为欧式距离,而横纵坐标绝对值之和的值代表曼哈顿距离。
[数据挖掘]数学基础---距离度量方式(马氏距离,欧式距离,曼哈顿距离)_第1张图片

L1(xi,xj)=(ni=1|x(l)ix(l)j|)

参考资料

[1] http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[2]http://wenku.baidu.com/link?url=xU3ejKXnB_WYT4AcRo5ucrCutHNIOzVjblUnwVsDxMBzmbyvceTvliZ2gUkx1KTP17pY0UQzcZumryB1l2hs-ckYLnKWJlP6oYU0YNPIS9W
[3]胡婷婷。厦门大学硕士论文。数据挖掘中的离群点检测算法研究。2014年。

你可能感兴趣的:(机器学习与数据挖掘)