在前边介绍了nutch1.2的单机布署环境之后,此篇介绍一下nutch1.2+hadoop0.20的集群环境的搭建。
本来hadoop是属于nutch1.2下边的一个附属部分,后来好像是在nutch0.9剥离出去,成了独立的一支,但是它们天然的结合性是相当默契的。nutch1.2是包含hadoop0.20的,如果不是特殊要求的话,用自带的就可以了,而且这个版本的hadoop还是相当新的,本篇即是如此。
在前篇的基础上修改如下几个文件,core-site.xml,hdfs-site.xml,mapred-site.xml,nutch-site.xml,以前这些文件的配置参数是比较集中的,但是随着版本的升高,配置参数逐渐分散,并针对化,故有现在的四个文件,
core-site.xml:<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>此处指的是抓取数据和搜索时候用的文件所在的主机
</property>
hdfs-site.xml://配置的是hdfs的系统参数,其中的hadoop20文件夹为手动在/usr下建立的
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop20/data</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop20/name</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>//数据存放的备份数目
</property>
mapred-site.xml://配置hadoop的map、reduce参数
<property>
<name>mapred.job.tracker</name>
<value>namenode的主机名称:9001</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/usr/hadoop20/temp</value>
</property>
<property>
<name>mapred.map.tasks</name>
<value>20</value>
</property>
<property>
<name>mapred.reduce.tasks</name>
<value>2</value>
</property>