Python---爬虫---存储---(布隆过滤器)BloomFilter(数据去重,断点续爬)

pip3 install pybloom_live    

 


   
   
   
   
  1. from pybloom_live import BloomFilter
  2. import hashlib
  3. Bloom_data = BloomFilter( 1000000000, 0.01)
  4. md5_qa = hashlib.md5(data.encode( 'utf8')).hexdigest()
  5. md5_qa = bytes(md5_qa, encoding= 'utf8')
  6. if md5_qa not in Bloom_data:
  7. Bloom_data.add(md5_qa)

作用:数据去重,断点续爬。

你可能感兴趣的:(数据库,爬虫)