杰卡德相似性度量
(1)杰卡德相似系数
两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。杰卡德相似系数是衡量两个集合相似度的一种指标(余弦距离也可以用来衡量两个集合的相似度)。
clip_image013
(2)杰卡德距离
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard Distance),可以用如下公式来表示:
clip_image015
杰卡德距离用两个两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
(3)杰卡德相似系数的应用
假设样本A和样本B是两个n维向量,而且所有维度的取值都是0或1。例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合,1表示集合包含该元素,0表示集合不包含该元素。
p:样本A与B都是1的维度的个数
q:样本A是1而B是0的维度的个数
r:样本A是0而B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
clip_image017
此处分母之所以不加s的原因在于:
对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二元变量。非对称的意思是指状态的两个输出不是同等重要的,例如,疾病检查的阳性和阴性结果。
按照惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为1(例如HIV阳性),而将另一种结果编码为0(例如HIV阴性)。给定两个非对称二元变量,两个都取1的情况(正匹配)认为比两个都取0的情况(负匹配)更有意义。负匹配的数量s认为是不重要的,因此在计算时忽略。
(4)杰卡德相似度算法分析
杰卡德相似度算法没有考虑向量中潜在数值的大小,而是简单的处理为0和1,不过,做了这样的处理之后,杰卡德方法的计算效率肯定是比较高的,毕竟只需要做集合操作。
Needleman-Wunsch
基于最长公共子串的文本比较算法——Needleman/Wunsch算法,用的都是动态规划的思想。在Needleman/Wunsch算法中还设定了一个权值,用以区分三种操作(插入、删除、更改)的优先级。
关键点
1. 打分矩阵:
选用不同的打分矩阵或者罚分分值会导致比对结果不同,常用BLAST打分矩阵。
2. 计算比对最高得分的算法:
常用动态规划算法(Needleman-Wunsch算法)。
在这里插入图片描述
Jaro–Winkler similarity
levenshtein距离是编辑距离的其中一种定义,本文所说的Jaro距离是编辑距离的另外一种定义,它也是对两个字符串的相似度进行衡量,以得出两字符串的相似程度。
1、Jaro distance/similarity
对于两个字符串s1和s2,它们的Jaro 相似度由下面公式给出:
其中:
①|s1|和|s2|表示字符串s1和s2的长度。
②m表示两字符串的匹配字符数。
③t表示换位数目transpositions的一半。
这里的m和t是满足一定条件下得出来的,在理解m和t的含义之前,我们先来认识匹配窗口(记为matching window,mw)的概念。Jaro算法的字符之间的比较是限定在一个范围内的,如果在这个范围内两个字符相等,那么表示匹配成功,如果超出了这个范围,表示匹配失败。而这个范围就是匹配窗口,在Jaro算法中,它被定义为不超过下面表达式的值:
比如说字符串A(“bacde”)和B(“abed”),它的匹配窗口大小为1,在匹配的过程中,字符’a’、‘b’、‘d’都是匹配的,indexInA(‘d’) = 3,indexInB(‘d’) = 3,二者的距离是0,小于匹配窗口大小。但对于’e’,虽然两字符串都有’e’这个字符,但它们却是不匹配的,因为’e’的下标分别为4和2,距离为2 > mw,所以’e’是不匹配的。在这个例子中,由于有3个字符匹配,因此m = 3。换位数目表示不同顺序的匹配字符的个数。同样看这个例子,'a’和’b’都是匹配的,但’a’和’b’在两个字符串的表示为"ba…“和"ab…”,它们的顺序不同,因此这里换位数目transpositions = 2,而t = transpositions / 2 = 1。
对于匹配窗口的含义,笔者的理解是:匹配窗口是一个阈值,在这个阈值之内两个字符相等,可以认为是匹配的;超过了这个阈值,即使存在另一个字符与该字符相等,但由于它们的距离太远了,二者的相关性太低了,不能认为它们是匹配的。从上面的公式可以看出,该算法强调的是局部相似度。
对于任意字符串A和B,能求出它们的length、m和t,这样便能代入公式求得二者的相似度(Jaro similarity)。从刚才的例子得到,|s1|=5,|s2|=4,m=3,t=1,代入公式可得:simj = (3/5 + 3/4 + (3-1)/3)/3 = 0.672
2、Jaro-Winkler distance/similarity
Jaro-Winkler similarity是在Jaro similarity的基础上,做的进一步修改,在该算法中,更加突出了前缀相同的重要性,即如果两个字符串在前几个字符都相同的情况下,它们会获得更高的相似性。该算法的公式如下:
其中:
①simj 就是刚才求得的Jaro similarity。
②l表示两个字符串的共同前缀字符的个数,最大不超过4个。
③p是缩放因子常量,它描述的是共同前缀对于相似度的贡献,p越大,表示共同前缀权重越大,最大不超过0.25。p默认取值是0.1。
图解Jaro-Winkler similarity求解过程
下面以字符串A(“abcdefgh”)和字符串B(“abehc”)为例来介绍整个算法的流程。这里以短字符串为行元素,长字符串为列元素,建立(|s1|+1)×(|s2|+1)的矩阵,这里匹配窗口的大小为3(注意包括距离为0的匹配),然后根据公式不断运算:
从上面的图以及公式,我们可以总结出求解的过程:字符串s1作为行元素,字符串s2作为列元素,窗口大小为mw,同时建立两个布尔型数组,大小分别为s1和s2的长度,布尔型数组对应下标的值True表示已匹配,false表示不匹配。
对于行元素的每一个字符c1,根据c1在该字符串s1中的下标k,定位到s2的k位置,然后在该位置往前遍历mw个单位,往后遍历mw个单位,如果寻找到相等的字符,记在s2中的下标为p。经过这样的一次遍历,找到了k和p,我们分别标记布尔型数组s1的k和布尔型数组s2的p为已匹配(true),下次遍历时就跳过该已匹配的字符。当对s1的所有元素都遍历完毕时,就找到了所有已匹配的字符,我们统计已匹配的字符便能得到m,然后对两个布尔型数组同时按照顺序比较,如果出现了true,但二者对应字符串相应位置的字符不相等,表示这是非顺序的匹配,这样就可以得到t。这样就能根据m和t求出Jaro similarity了。至于Jaro-Winkler similarity,需要p参数,也不难,求出俩字符串最大共同前缀的大小即可。
如果读者对上面的过程还有疑问,笔者再提一点,关键就在于判断来自俩字符串的相等字符的距离是不是超过了阈值(即匹配窗口长度)。这里的判断方法是在某个位置进行前后的搜索,包括当前位置。