WebMagic增量爬取去重 RedisScheduler队列实现

  1. import java.util.HashMap;  
  2. import java.util.Map;  
  3.   
  4. import org.apache.commons.codec.digest.DigestUtils;  
  5. import org.apache.http.NameValuePair;  
  6. import org.apache.http.message.BasicNameValuePair;  
  7.   
  8. import com.alibaba.fastjson.JSON;  
  9. import com.alibaba.fastjson.JSONArray;  
  10. import com.alibaba.fastjson.JSONObject;  
  11.   
  12. import redis.clients.jedis.Jedis;  
  13. import redis.clients.jedis.JedisPool;  
  14. import redis.clients.jedis.JedisPoolConfig;  
  15. import us.codecraft.webmagic.Request;  
  16. import us.codecraft.webmagic.Task;  
  17. import us.codecraft.webmagic.scheduler.component.DuplicateRemover;  
  18.   
  19. /** 
  20.  * Redis中存储着所有抓取到的链接 抓取程序首先判断Redis中是否存在,如果存在该链接直接抛弃. //ERROR 
  21.  *  
  22.  * @author CainGao 
  23.  */  
  24. public class RedisScheduler extends DuplicateRemovedScheduler implements  
  25.         MonitorableScheduler, DuplicateRemover {  
  26.   
  27.     private JedisPool pool;  
  28.   
  29.     private static final String QUEUE_PREFIX = "queue_";  
  30.   
  31.     private static final String SET_PREFIX = "set_";  
  32.   
  33.     private static final String ITEM_PREFIX = "item_";  
  34.   
  35.     public RedisScheduler(String host) {  
  36.         this(new JedisPool(new JedisPoolConfig(), host));  
  37.     }  
  38.   
  39.     public RedisScheduler(JedisPool pool) {  
  40.         this.pool = pool;  
  41.         setDuplicateRemover(this);  
  42.     }  
  43.   
  44.     @Override  
  45.     public void resetDuplicateCheck(Task task) {  
  46.         Jedis jedis = pool.getResource();  
  47.         try {  
  48.             jedis.del(getSetKey(task));  
  49.         } finally {  
  50.             pool.returnResource(jedis);  
  51.         }  
  52.     }  
  53.   
  54.     @Override  
  55.     public boolean isDuplicate(Request request, Task task) {  
  56.         Jedis jedis = pool.getResource();  
  57.         try {  
  58.             boolean isDuplicate = jedis.sismember(getSetKey(task),  
  59.                     request.getUrl());   
  60.             if (!isDuplicate) {  
  61.                 jedis.sadd(getSetKey(task), request.getUrl());   
  62.             }  
  63.             return isDuplicate;  
  64.         } finally {  
  65.             pool.returnResource(jedis);  
  66.         }  
  67.     }  
  68.   
  69.     @Override  
  70.     protected void pushWhenNoDuplicate(Request request, Task task) {  
  71.         Jedis jedis = pool.getResource();  
  72.         try {  
  73.             jedis.rpush(getQueueKey(task), request.getUrl());  
  74.             if (request.getExtras() != null) {  
  75.                 String field = DigestUtils.shaHex(request.getUrl());  
  76.                 String value = JSON.toJSONString(request  
  77.                         .getExtra("nameValuePair"));  
  78.                 jedis.hset((ITEM_PREFIX + task.getUUID()), field, value);  
  79.             }  
  80.         } finally {  
  81.             pool.returnResource(jedis);  
  82.         }  
  83.     }  
  84.   
  85.     /** 
  86.      * 移动并且返回队列头部一个元素 
  87.      */  
  88.     @Override  
  89.     public synchronized Request poll(Task task) {  
  90.         Jedis jedis = pool.getResource();  
  91.         try {  
  92.             String url = jedis.lpop(getQueueKey(task));  
  93.             if (url == null) {  
  94.                 return null;  
  95.             }  
  96.             String key = ITEM_PREFIX + task.getUUID();  
  97.             String field = DigestUtils.shaHex(url);  
  98.             String text = jedis.hget(key, field);  
  99.             if (text != null) {  
  100.                 JSONArray array = JSON.parseArray(text);  
  101.                 NameValuePair[] nameValuePairs = new NameValuePair[array.size()];  
  102.                 for (int i = 0; i < array.size(); i++) {  
  103.                     JSONObject json = JSONObject  
  104.                             .parseObject(array.getString(i));  
  105.                     nameValuePairs[i] = new BasicNameValuePair(  
  106.                             json.getString("name"), json.getString("value"));  
  107.                 }  
  108.                 Request r = new Request(url);  
  109.                 Map map = new HashMap();  
  110.                 map.put("nameValuePair", nameValuePairs);  
  111.                 r.setMethod("post");  
  112.                 r.setExtras(map);  
  113.                 return r;  
  114.             }  
  115.             Request request = new Request(url);  
  116.             return request;  
  117.         } finally {  
  118.             pool.returnResource(jedis);  
  119.         }  
  120.     }  
  121.   
  122.     protected String getSetKey(Task task) {  
  123.         return SET_PREFIX + task.getUUID();  
  124.     }  
  125.   
  126.     protected String getQueueKey(Task task) {  
  127.         return QUEUE_PREFIX + task.getUUID();  
  128.     }  
  129.   
  130.     @Override  
  131.     public int getLeftRequestsCount(Task task) {  
  132.         Jedis jedis = pool.getResource();  
  133.         try {  
  134.             Long size = jedis.llen(getQueueKey(task));  
  135.             return size.intValue();  
  136.         } finally {  
  137.             pool.returnResource(jedis);  
  138.         }  
  139.     }  
  140.   
  141.     @Override  
  142.     public int getTotalRequestsCount(Task task) {  
  143.         Jedis jedis = pool.getResource();  
  144.         try {  
  145.             Long size = jedis.scard(getQueueKey(task));  
  146.             return size.intValue();  
  147.         } finally {  
  148.             pool.returnResource(jedis);  
  149.         }  
  150.     }  
  151.   

你可能感兴趣的:(WebMagic增量爬取去重 RedisScheduler队列实现)