曼哈顿距离又称马氏距离(Manhattan distance),用以标明两个点上在标准坐标系上的绝对轴距之总和。
例如在平面上,坐标(x1, y1)的点P1与坐标(x2, y2)的点P2的曼哈顿距离为:
欧式距离又称欧几里得距离或欧几里得度量(Euclidean Metric),以空间为基准的两点之间最短距离,与之后的切比雪夫距离的差别是,只算在空间下。
说的通俗点,就是初中知识,两点之间直线最短的概念。
切比雪夫距离又称(Chebyshev distance)或者(Supremum distance)。数学上,切比雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的一种度量,二个点之间的距离定义为其各座标数值差的最大值。
例如,两个人同时从A到B,二者经历的欧式距离来相等,但由于存在其他维度上的差异(比如交通方式),切比雪夫距离可能不同。
明氏距离又叫做明可夫斯基距离(Minkowski distance)。
当纬度等于1时候,其公式等价于曼哈顿距离。
等于2时候,其公式等价于欧式距离。
当大于2到无穷大时候,其公式等价于切比雪夫距离。
汉明距离是以理查德·卫斯里·汉明的名字命名的。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:
ab 与ac 有一个字符不同,汉明距离是1
ab与ca有两个字符不同,汉明距离是2
1011101 与 1001001 之间的汉明距离是 2。
2143896 与 2233796 之间的汉明距离是 3。
"toned" 与 "roses" 之间的汉明距离是 3。
也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。
余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,那么角A的余弦为:
如果将三角形的两边b和c看成是两个向量,则上述公式等价于:
其中分母表示两个向量b和c的长度,分子表示两个向量的内积。
大圆距离(英语:Great-circle distance)指的是从球面的一点A出发到达球面上另一点B,所经过的最短路径的长度。一般说来,球面上任意两点A和B都可以与球心确定唯一的大圆,这个大圆被称为黎曼圆,而在大圆上连接这两点的较短的一条弧的长度就是大圆距离。若这两点和球心正好都在球的直径上,则过这三点可以有无数大圆,但两点之间的弧长都相等,且等于该大圆周长的一半{\displaystyle \pi r}, r 是球的半径。
计算公式如下图
详细过程见:https://zh.wikipedia.org/wiki/%E5%A4%A7%E5%9C%86%E8%B7%9D%E7%A6%BB
在编码理论里,"李"距离是评价两个长度为n,q进制的字符串和之间的距离,. 它在国际单位制中定义为
当或者,李距离等价于汉明距离。
由李距离所长产生的度量空间是一个类似于离散的椭圆几何
例如:
假设,字符串3340和2543之间的李距离是1+2+0+3=6
(1)杰卡德相似系数
两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。杰卡德相似系数是衡量两个集合相似度的一种指标(余弦距离也可以用来衡量两个集合的相似度)。
(2)杰卡德距离
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard Distance),可以用如下公式来表示:
杰卡德距离用两个两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
(3)杰卡德相似系数的应用
假设样本A和样本B是两个n维向量,而且所有维度的取值都是0或1。例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合,1表示集合包含该元素,0表示集合不包含该元素。
p:样本A与B都是1的维度的个数
q:样本A是1而B是0的维度的个数
r:样本A是0而B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
此处分母之所以不加s的原因在于:
对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二元变量。非对称的意思是指状态的两个输出不是同等重要的,例如,疾病检查的阳性和阴性结果。
按照惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为1(例如HIV阳性),而将另一种结果编码为0(例如HIV阴性)。给定两个非对称二元变量,两个都取1的情况(正匹配)认为比两个都取0的情况(负匹配)更有意义。负匹配的数量s认为是不重要的,因此在计算时忽略。
(4)杰卡德相似度算法分析
杰卡德相似度算法没有考虑向量中潜在数值的大小,而是简单的处理为0和1,不过,做了这样的处理之后,杰卡德方法的计算效率肯定是比较高的,毕竟只需要做集合操作。
参考:
1. https://blog.csdn.net/jacke121/article/details/54585685
2. https://blog.csdn.net/qingyang666/article/details/61919381
3. wiki百科
4.https://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html