海量文档的去重

思路:

  1. 文本的向量化表示
    1.1 simhash
    在线去重 抽屉原理

    1.2 word2vec
    1.3 bagofwords(one-hot; tf-idf;)

  2. 海量 向量 相似度计算
    2.1. 分而治之:将发帖数据按照用户进行切分,对每个用户的帖子计算相似度(或按照城市进行切分)
    2.2 将文档进行倒排,以便分布式计算
    优点:对文档进行倒排,这样可以利用分布式计算;且解决向量稀疏性的问题。
    2.3 simhash + 抽屉原理 实时去重
    在线去重

思考:

  1. 是否可以用HBASE,做分布式查重
  2. 是否有现成的库:https://my.oschina.net/dancing/blog/185114

你可能感兴趣的:(海量文档的去重)