Jaccard

与余弦相似度一样,jaccard系数也适用于衡量两个集合之间的区分度。

现有集合A,B

jaccard系数:J(A,B)=|A∩B|/|A∪B|            (1)

jaccard距离:=1-J(A,B)=(|A∪B|-|A∩B|)/|A∪B|            (2)

jaccard距离是与jaccard系数相反的概念。jaccard系数越大,二者越相似;而jaccard距离越大,二者越不相似。


有说:jaccard系数主要是处理非对称二元属性

非对称二元属性在上一个小问题中解释了。但是我想要提一句我自己的想法(可以帮助理解对称与非对称):这里的对称是针对属性,不是相似度。例如,我们可以说余弦相似度是属于对称的相似度,因为D(A,B)=D(B,A)的。

对于非对称二元属性来讲,属性的0,1两个状态的权重是不一样的,通俗一点说,就是两个状态的重要性不一样。按照惯例,通常将重要的状态取值为一。举个例子,HIV检测结果为阴性和阳性,阴性出现的很多很常见,而阳性的检测结果却相对很少,所以总体讲阳性的检测结果稀少而重要(其实自己感觉也可以感觉出来),而阴性相对不那么重要。可以看出来这里HIV检测结果就是一个非对称二元属性。HIV(阳性)取1,HIV(阴性)取0。


对于两个二元属性的取值的比较有下面几种情况:

p:(1,1)二者同时取1的次数

q:(1,0)

t:(0,1)

s:(0,0)

由于(0,0)负匹配的情况是不重要的,我们计算的时候会省略,所以有

jaccard系数=p/(p+q+t);            (3)

其实当我们把某属性存在看为1,不存在看为0,就可以理解公式(1)和公式(3)。


你可能感兴趣的:(小问题)