nutch1.2+hadoop0.20搭建分布式环境

在前边介绍了nutch1.2的单机布署环境之后,此篇介绍一下nutch1.2+hadoop0.20的集群环境的搭建。

本来hadoop是属于nutch1.2下边的一个附属部分,后来好像是在nutch0.9剥离出去,成了独立的一支,但是它们天然的结合性是相当默契的。nutch1.2是包含hadoop0.20的,如果不是特殊要求的话,用自带的就可以了,而且这个版本的hadoop还是相当新的,本篇即是如此。

在前篇的基础上修改如下几个文件,core-site.xml,hdfs-site.xml,mapred-site.xml,nutch-site.xml,以前这些文件的配置参数是比较集中的,但是随着版本的升高,配置参数逐渐分散,并针对化,故有现在的四个文件,

core-site.xml:<property>

                                    <name>fs.default.name</name>

                                    <value>hdfs://master:9000</value>此处指的是抓取数据和搜索时候用的文件所在的主机

                      </property>

hdfs-site.xml://配置的是hdfs的系统参数,其中的hadoop20文件夹为手动在/usr下建立的

                  <property>

                   <name>dfs.data.dir</name>

                   <value>/usr/hadoop20/data</value>

         </property>

         <property>

                   <name>dfs.name.dir</name>

                   <value>/usr/hadoop20/name</value>

         </property>

         <property>

                   <name>dfs.replication</name>

                   <value>2</value>//数据存放的备份数目

         </property>

mapred-site.xml://配置hadoop的map、reduce参数

     <property>

                   <name>mapred.job.tracker</name>

                   <value>namenode的主机名称:9001</value>

         </property>

         <property>

                   <name>mapred.local.dir</name>

                   <value>/usr/hadoop20/temp</value>

         </property>

         <property>

                   <name>mapred.map.tasks</name>

                   <value>20</value>

         </property>

         <property>

                   <name>mapred.reduce.tasks</name>

                   <value>2</value>

         </property>

你可能感兴趣的:(java,linux,hadoop,Nutch)