python3爬虫--入门篇3--url去重策略

1.访问过的url保存到数据库中   [频繁存取,时间消耗高]

2.将访问过的url保存到set中,只需要o(1)的代价    [内存的占用量会较高]

3.url经过md5等哈希后保存到set中。   [Scrapy默认采用md5方法压缩url的,内存占用会大大减小]

4.用bitmap方法,将访问过的url通过hash函数映射到某一位   [压缩更多,极大节省内存,但哈希冲突的可能性还是比较大]

5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突     [极大节省内容,又很大程度上避免了冲突]

你可能感兴趣的:(python3爬虫--入门篇3--url去重策略)