文本去重

simhash

分词,hash,加权,降维,拿到simhash;计算simhash的海明距离
试用长文本去重,效率高,顺序无关

编辑距离

a变成b的最小操作次数
精确的文字比较,效率低

Jaccard系数

交集大小比并集大小
适用元素类文字比较,顺序无关

最长公共子序列

精确对比,效率低

你可能感兴趣的:(文本去重)