机器学习中的九种距离公式(欧式距离,曼哈顿距离,切比雪夫距离,闵可夫斯基距离,标准化欧氏距离,余弦距离,汉明距离,杰卡德距离,马氏距离)


文章目录

  • 分类
  • 概述
    • 欧式距离(Euclidean Distance)
    • 曼哈顿距离(Manhattan Distance)
    • 切比雪夫距离 (Chebyshev Distance)
    • 闵可夫斯基距离(Minkowski Distance)
    • 标准化欧氏距离 (Standardized EuclideanDistance)
    • 余弦距离(Cosine Distance)
    • 汉明距离(Hamming Distance)
    • 杰卡德距离(Jaccard Distance)
    • 马氏距离(Mahalanobis Distance)
  • 总结


分类

1.欧式距离(Euclidean Distance)
2.曼哈顿距离(Manhattan Distance)
3.切比雪夫距离 (Chebyshev Distance)
4.闵可夫斯基距离(Minkowski Distance)
5.标准化欧氏距离 (Standardized EuclideanDistance)
6.余弦距离(Cosine Distance)
7.汉明距离(Hamming Distance)
8.杰卡德距离(Jaccard Distance)
9.马氏距离(Mahalanobis Distance)

概述

欧式距离(Euclidean Distance)

”两点之间距离最短“,通过初高中学的这个知识即是我们所知的欧式距离,欧式距离即是两点之间的距离
A(x1,y1), B(x2,y2)
欧式距离即为在这里插入图片描述

曼哈顿距离(Manhattan Distance)

曼哈顿距离即为横轴上的距离加上纵轴上的距离
曼哈顿距离为d(x,y)=|x1-x2|+|y1-y2|

切比雪夫距离 (Chebyshev Distance)

切比雪夫距离与国际象棋结合在一起介绍的,他的距离为几个轴上最长的那个,例如,一步横着走,另一步竖着走,等同于斜着走一步,因此,所谓切比雪夫距离即横竖斜三种走法走出最短的。
因此,平面上的距离可以这样表示d(x,y)=max(|x1-x2|,|y1-y2|)

闵可夫斯基距离(Minkowski Distance)

闵可夫斯基距离也被称为闵氏距离。它不仅仅是一种距离,而是将多个距离公式(曼哈顿距离、欧式距离、切比雪夫距离)总结成为的一个公式。
公式为在这里插入图片描述

闵氏距离主要与参数p有关系:
P=1,为曼哈顿距离
P=2,为欧式距离
P=∞,为切比雪夫距离

标准化欧氏距离 (Standardized EuclideanDistance)

标准化欧式距离是对欧式距离的一种改进,他对变量x进行了修改,欧式距离中x在各个维度之间的尺度不一样,所以标准化欧式距离对所有未读按照正态分布进行处理,在这里插入图片描述
带入欧式距离公式可得:机器学习中的九种距离公式(欧式距离,曼哈顿距离,切比雪夫距离,闵可夫斯基距离,标准化欧氏距离,余弦距离,汉明距离,杰卡德距离,马氏距离)_第1张图片

余弦距离(Cosine Distance)

余弦距离也可以叫余弦相似度。 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。
说白了,就是确定不同维度之间两个维度夹角的余弦。
如果夹角为0度,意味着方向相同、线段重合,这是表示两个向量代表的文本完全相等;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。
因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。

汉明距离(Hamming Distance)

汉明距离是应用于数据传输差错控制编码的距离度量方式,它表示两个(相同长度)字符串对应位不同的数量。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离。可以理解为两个等长字符串之间将其中一个变为另外一个所需要作的最小替换次数。
如果两个字符串长度不相等,则以短字符串长度截取长字符串,计算截取后的字符串与短字符串的汉明距离,加上两个字符串长度差。

杰卡德距离(Jaccard Distance)

杰卡德距离,是用来衡量两个集合差异性的一种指标,它是杰卡德相似系数的补集。因此,我们求出杰卡德相似系数之后用1减去这个系数即可得到杰卡德距离。
杰卡德相似系数:集合的交集在并集中长得比例,我们以两个集合AB为例,他的表达式为在这里插入图片描述

杰卡德距离为1-J(A,B)

马氏距离(Mahalanobis Distance)

马氏距离是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。
n维空间中的马氏距离为:在这里插入图片描述

总结

1.欧式距离(Euclidean Distance):
通过距离平方值进行计算
2.曼哈顿距离(Manhattan Distance):
通过距离的绝对值进行计算
3.切比雪夫距离 (Chebyshev Distance):
维度的最大值进行计算
4.闵可夫斯基距离(Minkowski Distance):
当p=1时,就是曼哈顿距离;
当p=2时,就是欧氏距离;
当p→∞时,就是切比雪夫距离。
前四个距离公式小结:前面四个距离公式都是把单位相同看待了,所以计算过程不是很科学
5.标准化欧氏距离 (Standardized EuclideanDistance):
在计算过程中添加了标准差,对量刚数据进行处理
6.余弦距离(Cosine Distance):
通过cos思想完成
7.汉明距离(Hamming Distance):
一个字符串到另一个字符串需要变换几个字母,进行统计
8.杰卡德距离(Jaccard Distance):
通过交并集进行统计
9.马氏距离(Mahalanobis Distance):
通过样本分布进行计算

你可能感兴趣的:(机器学习,人工智能,python,算法)