集合对比

参考文章:《数学之美》第十六章——信息指纹及其应用

判断集合完全相同

  • 暴力对比
    O(n^2)

  • 排序对比
    O(nlogn)

  • 将第一个集合放在一个散列表中,第二个哈希之后也进行看是不是跟第一个集合中的相似。更好的方法是每个元素散列后都相加起来,然后对比两个集合的结果是不是一样
    O(n)

判断集合基本相同

进行采样后进行同样的计算,比如选择最后两位都是24的进行计算即可,文本的话可以计算几个IDF大的词,然后计算指纹看相同与否。判断文本是否抄袭,将文本分割成几个段,然后还是计算每段IDF大的几个词的指纹,对比看是否有指纹相同的。

相似哈希

...

你可能感兴趣的:(集合对比)