【数学笔记】描述样本相似度的几种指标

1.闵可夫斯基距离

给定样本集合 X X X, X X X m m m维实数向量空间 R m R^m Rm中点的集合,其中 x i , x j ∈ X x_i,x_j \in X xi,xjX, x i = ( x 1 i , x 2 i , ⋯   , x m i ) T x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T xi=(x1i,x2i,,xmi)T, x i = ( x 1 j , x 2 j , ⋯   , x m j ) T x_i=(x_{1j},x_{2j},\cdots,x_{mj})^T xi=(x1j,x2j,,xmj)T,样本 x i x_i xi与样本 x j x_j xj的闵可夫斯基距离(Minkowski distance)为
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p d_{ij}=(\sum_{k=1}^{m}|x_{ki}-x_{kj}|^p)^\frac{1}{p} dij=(k=1mxkixkjp)p1
其中 p ≥ 1 p≥1 p1
p = 1 p=1 p=1时称为曼哈顿距离(Manhattan distance)
p = 2 p=2 p=2时称为欧式距离(Euclidean distance)
p = ∞ p=∞ p=时称为切比雪夫距离(Chebyshev distance),通过夹逼法不难证明此时 d i j = max ⁡ ∣ x k i − x k j ∣ d_{ij}=\max|x_{ki}-x_{kj}| dij=maxxkixkj

闵可夫斯基距离越大相似度越小

2.马哈拉诺比斯距离

给定一个样本集合 X X X X = [ x i j ] m × n X=[x_{ij}]_{m×n } X=[xij]m×n,其协方差矩阵记作 S S S。样本 x i x_i xi与样本 x j x_j xj的马哈拉诺比斯距离为 d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^\frac{1}{2} dij=[(xixj)TS1(xixj)]21
当S为单位矩阵,马哈拉诺比斯距离为欧氏距离。

马哈拉诺比斯距离越大相似度越小

3.相关系数

样本 x i x_i xi x j x_j xj之间的相关系数为:
r i j = ∑ k = 1 m ( x k i − x i ˉ ) ( x k j − x j ˉ ) [ ∑ k = 1 m ( x k i − x i ˉ ) 2 ∑ k = 1 m ( x k j − x j ˉ ) 2 ] r_{ij}=\frac{\sum_{k=1}^{m}(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j})}{[\sum_{k=1}^{m}{(x_{ki}-\bar{x_i}}^{})^2\sum_{k=1}^{m}(x_{kj}-\bar{x_j})^2]} rij=[k=1m(xkixiˉ)2k=1m(xkjxjˉ)2]k=1m(xkixiˉ)(xkjxjˉ)

相关系数越接近于1,相关性越大,越接近于0,相关性越小

4.夹角余弦

样本 x i x_i xi x j x_j xj之间的夹角余弦为:
s i j = ∑ k = 1 m x k i x k j [ ∑ k = 1 m x k i 2 ∑ k = 1 m x k j 2 ] 1 2 s_{ij}=\frac{\sum_{k=1}^{m}x_{ki}x_{kj}}{[\sum_{k=1}^{m}x_{ki}^2\sum_{k=1}^{m}x_{kj}^2]^\frac{1}{2}} sij=[k=1mxki2k=1mxkj2]21k=1mxkixkj
夹角余弦越接近于1,相关性越大,越接近于0,相关性越小

你可能感兴趣的:(数学,样本相关性)