Bryan Zhang

机器学习-各种距离的定义

转自：https://www.cnblogs.com/ronny/p/4080442.html

1. 欧氏距离

欧氏距离是最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点 x=(x1,⋯,xn)x=(x1,⋯,xn) 和y=(y2,⋯,yn)y=(y2,⋯,yn)之间的距离为：

d(x,y)=(x1–y1)2+(x2−y2)2+⋯+(xn−yn)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=∑i=1n(xi−yi)2−−−−−−−−−−√d(x,y)=(x1–y1)2+(x2−y2)2+⋯+(xn−yn)2=∑i=1n(xi−yi)2

1）二维平面上两点a(x1,y1)a(x1,y1)与b(x2,y2)b(x2,y2)间的欧氏距离：

d=(x1–x2)2+(y1–y2)2−−−−−−−−−−−−−−−−√d=(x1–x2)2+(y1–y2)2

2）三维空间两点a(x1,y1,z1)a(x1,y1,z1)与b(x2,y2,z2)b(x2,y2,z2)间的欧氏距离：

d=(x1–x2)2+(y1–y2)2+(z1–z2)2−−−−−−−−−−−−−−−−−−−−−−−−−√d=(x1–x2)2+(y1–y2)2+(z1–z2)2

3）两个nn维向量a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与 b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)间的欧氏距离：

d=∑k=1n(x1k–x2k)2−−−−−−−−−−−√d=∑k=1n(x1k–x2k)2

也可以用表示成向量运算的形式：

d=(a−b)(a−b)T−−−−−−−−−−−−√d=(a−b)(a−b)T

nn维平面上两点欧式距离，代码可以如下编写：

//unixfy：计算欧氏距离 
double euclideanDistance(const vector& v1, const vector& v2) 
{ 
    assert(v1.size() == v2.size()); 
    double ret = 0.0; 
    for (vector::size_type i = 0; i != v1.size(); ++i) 
    { 
        ret += (v1[i] - v2[i]) * (v1[i] - v2[i]); 
    } 
    return sqrt(ret); 
}

2. 曼哈顿距离

我们可以定义曼哈顿距离的正式意义为L1L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

例如在平面上，坐标(x1,y1)(x1,y1)的点P1P1与坐标(x2,y2)(x2,y2)的点P2P2的曼哈顿距离为：

D(P1,P2)=|x1−x2|+|y1–y2|D(P1,P2)=|x1−x2|+|y1–y2|

要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在座标轴上的平移或映射。

通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

1）二维平面两点a(x1,y1)a(x1,y1)与b(x2,y2)b(x2,y2)间的曼哈顿距离

d(a,b)=|x1–x2|+|y1−y2|d(a,b)=|x1–x2|+|y1−y2|

2）两个nn维向量a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)间的曼哈顿距离

d(a,b)=∑k=1n|x1k–x2k|d(a,b)=∑k=1n|x1k–x2k|

3. 切比雪夫距离

若二个向量或二个点p,qp,q，其座标分别为(p1,p2,⋯,pi,⋯)(p1,p2,⋯,pi,⋯)及(q1,q2,⋯,qi,⋯)(q1,q2,⋯,qi,⋯)，则两者之间的切比雪夫距离定义如下：

DChebyshev(p,q)=maxi(|pi–qi|)DChebyshev(p,q)=maxi(|pi–qi|)

这也等于以下LpLp度量的极值：limk→∞(∑ni=1|pi–qi|k)1/klimk→∞(∑i=1n|pi–qi|k)1/k，因此切比雪夫距离也称为L∞L∞度量。以数学的观点来看，切比雪夫距离是由一致范数（或称为上确界范数）所衍生的度量，也是超凸度量的一种。

1）在平面几何中，若二点pp及qq的直角坐标系坐标为(x1,y1)(x1,y1)及(x2,y2)(x2,y2)，则切比雪夫距离为：DChess=max(|x2–x1|,|y2−y1|)DChess=max(|x2–x1|,|y2−y1|)。

玩过国际象棋的朋友或许知道，国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)(x1,y1)走到格子(x2,y2)(x2,y2)最少需要多少步？。你会发现最少步数总是max(|x2–x1|,|y2−y1|)max(|x2–x1|,|y2−y1|)步。

2）二维平面上两点a(x1,y1)a(x1,y1)与b(x2,y2)b(x2,y2)间的切比雪夫距离

d(a,b)=max(|x1−x2|,|y1–y2|)d(a,b)=max(|x1−x2|,|y1–y2|)

3）两个nn维向量a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与 b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)间的切比雪夫距离

d(a,b)=maxi(|x1i–x2i|)d(a,b)=maxi(|x1i–x2i|)

这个公式的另一种等价形式是

d(a,b)=limk→∞(∑i=1n|x1i–x2i|k)1/kd(a,b)=limk→∞(∑i=1n|x1i–x2i|k)1/k

4. 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。

两个nn维向量a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与 b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)间的闵可夫斯基距离定义为：

d(a,b)=∑k=1n|x1k–x2k|p−−−−−−−−−−−√pd(a,b)=∑k=1n|x1k–x2k|pp

其中pp是一个变参数。

当p=1p=1时，就是曼哈顿距离；

当p=2p=2时，就是欧氏距离；

当p→∞p→∞时，就是切比雪夫距离；

根据变参数的不同，闵氏距离可以表示一类的距离。

5. 标准化欧氏距离 (Standardized Euclidean distance )

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。

假设样本集XX的数学期望或均值为μμ，标准差为σσ，那么XX的“标准化变量”X^X^表示为：(X−μ)/σ(X−μ)/σ，而且标准化变量的数学期望为0，方差为1。

即，样本集的标准化过程(standardization)用公式描述就是：

X^=X−μσX^=X−μσ

经过简单的推导就可以得到两个nn维向量a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与 b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)间的标准化欧氏距离的公式：

d(a,b)=∑k=1n(x1k–x2kσk)2−−−−−−−−−−−−−−⎷d(a,b)=∑k=1n(x1k–x2kσk)2

如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。

6. 马氏距离(Mahalanobis Distance)

有MM个样本向量X1∼XMX1∼XM，协方差矩阵记为SS，均值记为向量μμ，则其中样本向量XX到μμ的马氏距离表示为：

D(X)=(X−μ)TS−1(X−μ)−−−−−−−−−−−−−−−−−√D(X)=(X−μ)TS−1(X−μ)

而其中向量XiXi与XjXj之间的马氏距离定义为：

D(Xi,Xj)=(Xi–Xj)TS−1(Xi–Xj)−−−−−−−−−−−−−−−−−−√D(Xi,Xj)=(Xi–Xj)TS−1(Xi–Xj)

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

D(Xi,Xj)=(Xi–Xj)T(Xi–Xj)−−−−−−−−−−−−−−−√D(Xi,Xj)=(Xi–Xj)T(Xi–Xj)

也就是欧氏距离了。

若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。
马氏距离的优缺点：量纲无关，排除变量之间的相关性的干扰。

7. 巴氏距离（Bhattacharyya Distance）

在统计中，Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时，Bhattacharyya系数可以被用来确定两个样本被认为相对接近的，它是用来测量中的类分类的可分离性。

对于离散概率分布pp和qq在同一域XX，它被定义为：

DB(p,q)=–ln(BC(p,q))DB(p,q)=–ln(BC(p,q))

其中：

BC(p,q)=∑x∈Xp(x)q(x)−−−−−−−√BC(p,q)=∑x∈Xp(x)q(x)

是Bhattacharyya系数。

对于连续概率分布，Bhattacharyya系数被定义为：

BC(p,q)=∫p(x)q(x)−−−−−−−√dxBC(p,q)=∫p(x)q(x)dx

Bhattacharyya系数是两个统计样本之间的重叠量的近似测量，可以被用于确定被考虑的两个样本的相对接近。

计算Bhattacharyya系数涉及集成的基本形式的两个样本的重叠的时间间隔的值的两个样本被分裂成一个选定的分区数，并且在每个分区中的每个样品的成员的数量，在下面的公式中使用

Bhattacharyya=∑i=1n(∑ai⋅∑bi)−−−−−−−−−−−−√Bhattacharyya=∑i=1n(∑ai⋅∑bi)

考虑样品aa和bb ，nn是的分区数，∑ai∑ai是指样品aa中落在分区ii内的个数，∑bi∑bi有类似的定义。

8. 汉明距离(Hamming distance)，

两个等长字符串s1s1与s2s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。

例如字符串“1111”与“1001”之间的汉明距离为2。

应用：信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

9. 夹角余弦(Cosine)

几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x1,y1)A(x1,y1)与向量B(x2,y2)B(x2,y2)的夹角余弦公式：

cosθ=x1x2+y1y2x21+y21−−−−−−√x22+y22−−−−−−√cosθ=x1x2+y1y2x12+y12x22+y22

(2) 两个nn维向量a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与 b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)的夹角余弦

cos(θ)=a⋅b|a||b|cos(θ)=a⋅b|a||b|

类似的，对于两个n维样本点a(x11,x12,⋯,x1n)a(x11,x12,⋯,x1n)与 b(x21,x22,⋯,x2n)b(x21,x22,⋯,x2n)，可以使用类似于夹角余弦的概念来衡量它们间的相似程度，即：

cos(θ)=∑nk=1x1kx2k∑nk=1x21k−−−−−−−√∑nk=1x22k−−−−−−−√cos(θ)=∑k=1nx1kx2k∑k=1nx1k2∑k=1nx2k2

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

10. 杰卡德相似系数(Jaccard similarity coefficient)

10.1 杰卡德相似系数

两个集合AA和BB的交集元素在A,BA,B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)J(A,B)表示。

J(A,B)=|A∩B||A∪B|J(A,B)=|A∩B||A∪B|

杰卡德相似系数是衡量两个集合的相似度一种指标。

10.2 杰卡德距离

与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。

杰卡德距离可用如下公式表示：

杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

10.3 杰卡德相似系数与杰卡德距离的应用

可将杰卡德相似系数用在衡量样本的相似度上。

举例：样本A与样本B是两个n维向量，而且所有维度的取值都是0或1，例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。

M11 ：样本A与B都是1的维度的个数

M01：样本A是0，样本B是1的维度的个数

M10：样本A是1，样本B是0 的维度的个数

M00：样本A与B都是0的维度的个数

依据上文给的杰卡德相似系数及杰卡德距离的相关定义，样本A与B的杰卡德相似系数J可以表示为：

这里M11+M01+M10可理解为A与B的并集的元素个数，而M11是A与B的交集的元素个数。而样本A与B的杰卡德距离表示为J'：

11.皮尔逊系数(Pearson Correlation Coefficient)

在具体阐述皮尔逊相关系数之前，有必要解释下什么是相关系数 ( Correlation coefficient )与相关距离(Correlation distance)。

相关系数 ( Correlation coefficient )的定义是：

(其中，E为数学期望或均值，D为方差，D开根号为标准差，E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差，记为Cov(X,Y)，即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数，记为)

相关系数衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。

具体的，如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时，X和Y两变量无关系。
当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。
当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。