给定样本集合 X X X, X X X是 m m m维实数向量空间 R m R^m Rm中点的集合,其中 x i , x j ∈ X x_i,x_j \in X xi,xj∈X, x i = ( x 1 i , x 2 i , ⋯ , x m i ) T x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T xi=(x1i,x2i,⋯,xmi)T, x i = ( x 1 j , x 2 j , ⋯ , x m j ) T x_i=(x_{1j},x_{2j},\cdots,x_{mj})^T xi=(x1j,x2j,⋯,xmj)T,样本 x i x_i xi与样本 x j x_j xj的闵可夫斯基距离(Minkowski distance)为
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p d_{ij}=(\sum_{k=1}^{m}|x_{ki}-x_{kj}|^p)^\frac{1}{p} dij=(k=1∑m∣xki−xkj∣p)p1
其中 p ≥ 1 p≥1 p≥1。
p = 1 p=1 p=1时称为曼哈顿距离(Manhattan distance)
p = 2 p=2 p=2时称为欧式距离(Euclidean distance)
p = ∞ p=∞ p=∞时称为切比雪夫距离(Chebyshev distance),通过夹逼法不难证明此时 d i j = max ∣ x k i − x k j ∣ d_{ij}=\max|x_{ki}-x_{kj}| dij=max∣xki−xkj∣
闵可夫斯基距离越大相似度越小
给定一个样本集合 X X X, X = [ x i j ] m × n X=[x_{ij}]_{m×n } X=[xij]m×n,其协方差矩阵记作 S S S。样本 x i x_i xi与样本 x j x_j xj的马哈拉诺比斯距离为 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^\frac{1}{2} dij=[(xi−xj)TS−1(xi−xj)]21
当S为单位矩阵,马哈拉诺比斯距离为欧氏距离。
马哈拉诺比斯距离越大相似度越小
样本 x i x_i xi与 x j x_j xj之间的相关系数为:
r i j = ∑ k = 1 m ( x k i − x i ˉ ) ( x k j − x j ˉ ) [ ∑ k = 1 m ( x k i − x i ˉ ) 2 ∑ k = 1 m ( x k j − x j ˉ ) 2 ] r_{ij}=\frac{\sum_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{[\sum_{k=1}^{m}{(x_{ki}-\bar{x_i}}^{})^2\sum_{k=1}^{m}(x_{kj}-\bar{x_j})^2]} rij=[∑k=1m(xki−xiˉ)2∑k=1m(xkj−xjˉ)2]∑k=1m(xki−xiˉ)(xkj−xjˉ)
相关系数越接近于1,相关性越大,越接近于0,相关性越小
样本 x i x_i xi与 x j x_j xj之间的夹角余弦为:
s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k i 2 ∑ k = 1 m x k j 2 ] 1 2 s_{ij}=\frac{\sum_{k=1}^{m}x_{ki}x_{kj}}{[\sum_{k=1}^{m}x_{ki}^2\sum_{k=1}^{m}x_{kj}^2]^\frac{1}{2}} sij=[∑k=1mxki2∑k=1mxkj2]21∑k=1mxkixkj
夹角余弦越接近于1,相关性越大,越接近于0,相关性越小