各类距离公式

给定两个n维变量A(x_{11},x_{12},...,x_{1n})B(x_{21},x_{22},...,x_{2n})

闵可夫斯基距离(Minkowski Distance)

d_{AB}=\sqrt[p]{\sum_{k=1}^{n}(x_{1k}-x_{2k})^_{p}}

其中,p是可变参数

p=1时,是曼哈顿距离

p=2时,是欧式距离

p\rightarrow \infty时,是切比雪夫距离

所以,严格意义上,闵可夫斯基距离不是一种距离,而是一组距离的定义。

欧式距离(Euclidean Distance)

d_{AB}=\sqrt[2]{\sum_{k=1}^{n}(x_{1k}-x_{2k})^_{2}}

表示为向量的形式则为:d_{AB}=\sqrt{(A-B)(A-B)^_{T}}

曼哈顿距离(Manhattan Distance)

d_{AB}=\sum_{k=1}^{n}|x_{1k}-x_{2k}|

切比雪夫距离(Chebyshev Distance)

d_{AB}=max_{i}(|x_{1i}-x_{2i}|)

余弦相似度(Cosine Similarity)

d_{AB}=\frac{AB}{|A||B|}=\frac{\sum_{k=1}^{n}x_{1k}x_{2k}}{\sqrt{\sum_{k=1}^{n}x_{1k}^{2}}\sqrt{\sum_{k=1}^{n}x_{2k}^{2}}}

主要用来衡量两个样本之间的差异,取值范围为[-1,1],夹角越小,夹角余弦值越大,反之则越小。

汉明距离(Hamming Distance)

定义:两个等长的字符串s1和s2之间的汉明距离为将其中一个字符串变为另一个时所需的最小替换次数,常用于信息编码。

杰卡德相似系数(Jaccard Similarity Coefficient)

一般用来衡量两个集合的相似度

J(A,B)=\frac{|A\cap B|}{|A\cup B|}

杰卡德距离(Jaccard Distance)

与杰卡德相似系数相反,是用来衡量两个集合的区分度的。

J_{\delta }(A,B)=1-J(A,B)=\frac{|A\cup B|-|A\cap B|}{|A\cup B|}

 

 

 


 

 

你可能感兴趣的:(机器学习)