nutch 分布式部署 自测

本文档的NUTCH版本为NUTCH1.6
1、首先确认部署目标机子的HADOOP安装运行正常。(其方法不在本文章范围,请参考其它文档)
2、打包发布好NUTCH,修改配置:
这里对于配置的修改只需要修改runtime/deploy/xxx.JOB包里的nutch-site.xml:
爬虫标识名称:http.agent.name,名称可以随便赋值,如:NUTCH123
插件目录:plugin.folders,对应包中的路径,如:./classes/plugins
注:一般修改好这两项配置即可,其它可根据相关需要进行修改,如regex-urlfilter.txt我们不进行修改,默认是允许抓取所有正常的URL。
3、把runtime目录下的deploy目录传到集群下,如:/home/atco/nutch/deploy
4、运行NUTCH相关命令进行测试,如,我们进行一下注入工作:
$/home/atco/nutch/deploy/bin/nutch inject /user/hadoop/nutchwork/1/crawldb /user/hadoop/nutchwork/1/urls
注:/user/hadoop/nutchwork/1/ 是hadoop分布式环境下的路径,请确保目录存在
/user/hadoop/nutchwork/1/urls 是hadoop分布式环境下的路径,请确保文件存在,urls文件里的是每行一个的待抓取URL

5、这里说明一点的是,很多教程说要:
*将hadoop的conf下的core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-site.xml,masters,slaves文件拷贝到JJOB包下
*将 HADOOP_HOME下的 lib/native中的文件 Linux-amd64-64,Linux-i386-32 拷贝到NUTCH_HOME/lib/native下
我没有这样做,但同样是成功的,也许是NUTCH16版本已经自已去找相关的配置了,也也许我的集群目录配置了一些环境变量了,也或者是有一些已设置了的文件我还没有发现而导致他成功了。

你可能感兴趣的:(nutch 分布式部署 自测)