距离的度量

其实度量距离本质上是在比较二者的相似度。因为目前只总结距离的度量,其他相似度的度量方法暂时不管,比如余弦的夹角度量2个向量之间的相似性,比如相对熵度量数据分布的相似性。

欧几里得距离(欧氏距离)

先从最熟悉的欧氏距离说起,也就是形式如这里写图片描述,说得通俗点,就是两点之间直线最短的概念。

曼哈顿距离

曼哈顿距离形象地说,就像你在城市中走路,只能沿着街道走,而不能直接穿插到某地。
距离的度量_第1张图片
图中每一中彩色的线代表一个曼哈顿距离,并且4条线的距离都相等。它度量的是2个向量在各个维度上差的和。即有这里写图片描述这里写图片描述,2个n维的向量,它们的曼哈顿距离为这里写图片描述

切比雪夫距离

切比雪夫距离又称(Chebyshev distance)或者(Supremum distance)。使用时候,其纬度起码为3及以上。它所定义的距离是向量间对应分量距离最大的那一个,即这里写图片描述

闵可夫斯基距离

闵氏距离不是一种距离,而是一组距离的定义。
当p=1时,就是曼哈顿距离;
当p=2时,就是欧氏距离;
当p→∞时,就是切比雪夫距离。
根据参数p的不同,闵氏距离可以表示一类的距离。​
这里写图片描述

闵氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。
(1)将各个分量的量纲(scale),也就是“单位”当作相同的看待了。这样造成的缺点就是,量纲大的维度分量会对结果造成较大的影响,所以这就是归一化的原因,消除量纲的影响。
(2)没有考虑各个分量的分布(期望,方差等)可能是不同的。
参考:http://blog.sina.com.cn/s/blog_407e5c1c0102vxyh.html

你可能感兴趣的:(数学)