爬虫去重策略

1.将访问过的url保存到数据库中,每次访问的时候通过数据库查询;效率低,使用少。
2.将访问过的url保存到Set中,内存使用很大。
3.url经过md5等方法哈希厚保存到set中(scrapy使用该方法去重)
4.用bitmap方法,将访问过的url通过hash函数映射到某一位,冲突非常高。
5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突。1亿个url约占用内容12M。

你可能感兴趣的:(爬虫去重策略)