Windows下安装Nutch

 J2SE
Tomcat
Cygwin
Nutch

1 安装J2SE
2 安装Tomcat
3 安装Cygwin
4 Nutch解压

配置 nutch
配置抓取过滤器,确定要抓取的网站地址
    打开NUTCH_HOME/conf/crawl-urlfilter.txt
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*/.)*baidu.com/
    说明: 其中baidu.com为要搜索的域名
   
 配置抓取的起始网站地址
        在NUTCH_HOME中建立文件url       文件内容:http://www.gucas.ac.cn/

./bin/nutch crawl url -dir datas -depth 2 -threads 4 >& crawl.log

配置tomcat
删除ROOT目录,将nutch-0.7.2.war解压缩到ROOT目录中       (可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)   配置文件:TOMCAT_HOME/webapps/ROOT/WEB-INF/classes/nutch-site.xml
//重点设置部分
            searcher.dir        F:/project/nutch-0.7.2/crawled/gucas.ac.cn   
在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。F:/project/nutch-0.7.2/crawled/gucas.ac.cn部分,你可以自由修改。
接下来修改tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可:  
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
       重启tomcat服务器       IE中输入http://localhost:8080

 

 

 

 

你可能感兴趣的:(Windows下安装Nutch)