多线程爬虫去重问题

最近无聊做了一个小爬虫项目,用的是WebCollector框架,比较好上手。但爬取数据后发现有许多重复的,测试了一下是多线程的问题,一开始想到的是在插入MongoDB前判断是否有相同数据存在,但可想而知多线程出现的是问题解决不了的而且效率也很低,然后想到了用CurrentHashMap去重,搞定
首先新建全局属性:

public static ConcurrentHashMap<String,Integer>  concurrenthashMap = new ConcurrentHashMap<String, Integer>();

数据持久化代码如下:

synchronized (this){
                 if(concurrenthashMap.get(title) == null)
                 {
                     concurrenthashMap.put(title, 1);//value值不重要的话随便定义都可以
                     MongoDBConn.insertSight(title, address, num, url);
                 }
            }

你可能感兴趣的:(大数据)