Jaccard相似度、minHash、Locality-Sensitive Hashing(LSH)
在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索引擎要避免非常相似的文档出现在结果的前几页,再比如很多网站上都有的“查找与你口味相似的用户”、“你可能喜欢什么什么”之类的功能。后者其实是很大的一块叫做“协同过滤”的研究领域,留待以后详谈。首先我们定义两个集合S,T的Jaccard相似度:Sim(S,T)=|S,T的交集|/|S,T的并集|。直观上就容易感觉出这是一个很简单而且比较合理的度量,