Jaccard系数与Jaccard距离

Jaccard(杰卡德)系数主要用于计算样本间的相似度。Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式为:
这里写图片描述
jaccard系数相反的即为jaccard距离,用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度,公式为:

Jaccard系数主要的应用的场景有
1.过滤相似度很高的新闻,或者网页去重
2.考试防作弊系统
3.论文查重系统
举个栗子:
集合A = {a, b, c, d}
集合B = {c, d, e, f}
A∩B = {c, d}
A∪B = {a, b, c, d, e, f}
交集中有2个元素,并集中有6个元素,因此:
杰卡德系数为:J(A,B) = 2/6 = 1/3
杰卡德距离为:1 - J(A,B) = 2/3
参考网址:
1. https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin
2. https://blog.csdn.net/bananaml/article/details/52894295

你可能感兴趣的:(数据挖掘)