Nutch爬取效率非常重要的一点


关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404

除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下:
一、修改Generator.java文件,注释掉如下代码(这段代码会吧下文中修改的numSlaves修改为1,具体原因本猿未求甚解,单纯加log得到的结果,有仁猿有结论还望告知本猿)
    if ("local".equals(job.get("mapred.job.tracker")) && numLists != 1) {
      // override
      LOG.info("Generator: jobtracker is 'local', generating exactly one partition.");
      numLists = 1;
    }
二、编译之后修改crawl脚本中的numSlaves变量,将此变量改为实际的hadoop节点数,这样在fetch阶段就是产生随节点数*2的map数量了。
具体机制原理课参考上面博客,大致就是这么改完后generate时就会产生多个文件了,这样每个文件作输入启动一个map就有多个map启动了。

你可能感兴趣的:(hadoop,优化,效率,Nutch,fetch)