《自己动手写网络爬虫》读书笔记-如何判断对象是否存在于海量键值对中

    在爬虫系统中,避免重复爬取的方式是将已爬取的url存起来,在爬取新url前对比已爬取的url,如发现已存在则放弃爬取。
    类似hotmail等公众邮件系统,需要过滤来自发送垃圾邮件人的垃圾邮件。如果使用哈希表来存储垃圾邮件地址,没每存储1亿个Email地址,需要1.6GB的内存。因此存储几十亿的email地址可能需要上百GB的内存,除非是超级计算机,一般服务器无法存储。
    一种称作布隆过滤器的数学工具,只需要哈希表 1/8 到 1/4 的大小就能解决同样的问题。
    参考资料:http://baike.baidu.com/view/4526149.htm
                    http://www.cnblogs.com/allensun/archive/2011/02/16/1956532.html

你可能感兴趣的:(爬虫,布隆过滤器,哈希表,键值对,海量url)