为什么injector了47个站点,而generate的时候却把上次爬去的父链接给过滤掉了?

因为返回时间的问题,被第二个多了条件给过滤掉了

      if (!schedule.shouldFetch(url, crawlDatum, curTime)) {
        LOG.debug("-shouldFetch rejected '" + url + "', fetchTime="
            + crawlDatum.getFetchTime() + ", curTime=" + curTime);
        return;
      }


 查看中间结果显示:可一看到父链接的FetchTime大于nutch的curTime,也大于刚得到的系统时间,所以可以确定对于父链接的datum中的FetchTime属性指的是下次爬取的时间,而不是本次爬去完成的时间。

datum.getFetchTime=1346142937056
curTime=1343551003551
System.currentTimeMillis()=1343551004197

你可能感兴趣的:(为什么injector了47个站点,而generate的时候却把上次爬去的父链接给过滤掉了?)