linux搭建nutch1.2单机环境

1、所用环境:oracle enterprise linux+nutch1.2+jdk1.6+tomcat6.0

2、这四个资源备齐之后,并且安装完毕,这些工作就不细说了,网上查一下很多的。

3、根据自己的环境配置,nutch1.2下的conf下的core-site.xml和nutch-site.xml,具体如下:      

        core-site.xml:  <property>

                                      <name>fs.default.name</name><value>local</value>//因为你是本地单机,所以此处为local就可以,若分布式的化

                                </property>               就得改了,具体怎么改,下一篇再说了

        nutch-site.xml:<property> 

                                            <name>http.agent.name</name> <value>随意指定一个名字就可,但是必须写上</value>

                               </property>

                               <property> 

                                  <name>searcher.dir</name><value>你的nutch爬虫抓到的数据所存在的位置(/usr/nutch1.2/crawl_data)</value>

                                         //此属性是搜索时候用的目录

                               </property>

4、接下来就可以进行抓数据的操作了:进行nutch1.2所在目录, ./bin/nutch crawl urls目录或文件 -dir crawl_data -depth 3 -topN 10 

             nutch是nutch1.2提供的命令,crawl是负责抓取数据的主要类,urls目录就是抓取数据时起始地址,可以是一个url地址文件列表,也可以是一个url文件的文件夹,-dir 就是指定一个抓取下来的数据所存放的数据以及索引文件的目录,也是searcher.dir属性所指向的位置,至于后边的几个参数,可以通过上一篇的价绍得到,此处不再说了。

5、完成4之后,会得到你指定的目录上的crawl_data,它存放着抓取的数据和索引,下边可以进行测试了,有两种方式,web方式和命令行方式,下面先介绍web方式:

            将nutch1.2根目录下的nutch-1.2.war拷贝至你的tomcat安装目录下webapp下,然后,运行tomcat,会在webapp下看到一个解压后的文件,进入到该解压后的文件的WEB-INF/classes目录中,修改core-site.xml和nutch-site.xml如上边修改成一样就可以了,然后重启tomcat就可以了,在浏览器中输入主机的IP:port,ip为你的tomcat所在的ip,port为tomcat的端口,正常就会看到nutch界面了,输入你抓取网页的关键字就可以看到结果了。

         再介绍命令行方式的测试: 

              进入到nutch1.2的安装目录,./bin/nutch org.apache.nutch.searcher.NutchBean 要查询的关键字,如果抓取没问题的话就会出现相应的结果了。

特别注意的几个爱错的地方:

           (1)配置url,这个地方很容易出现, 但网上介绍此处的资料特多,我就不多说了。

           (2)抓取数据时候的命令配置:因为都是要手工写的命令,还是要细心,很容易因为大小写、或少写什么字母造成一些failed或exception等,一定要细心,减少代价。

            (3)在web测试时,中文检索会出现乱码,是因为tomcat的conf下server.xml中找到对应端口的connector选项处加上URIEncoding="UTF-8",再检索时就可以了。 

      以上这些东西,都是凭记忆写的,难免会有遗漏,若有问题可留言交流。

你可能感兴趣的:(java,linux,hadoop,Nutch)