nutch安装配置 tomcat6.0+nutch1.2安装配置(原创)

 

1.下载

  • 下载JDK1.6,建议下载安装版;
  • 下载cygwin,下载时候注意选择台湾的站点,不然速度非常慢;
  • 下载tomcat6.0以上版本;
  • 下载nutch1.2,建议下载安装版;

准备就绪开始安装。。

 

长沙华慷电子 卜毅龙

[email protected]

 

2. nutch的安装与配置

  • 安装java1.6,设置JAVA_HOME到环境变量,(我的安装路径是:C:/Program Files/Java/jdk1.6.0_24/);
  • 安装cygwin(默认为c:/cygwin),只介绍安装后需要如何判断是否能够使用:在cygwin的安装目录下,查找c:/cygwin/cygwin/bin/sh.exe,存在此命令即可使用(cygwin在删除后会发现无法再次成功安装的问题,可以通过注册表内的查找功能,删除所有包含cygwin内容的键值即可)。注:不知什么原因,我在笔记本上与台式机上使用cygwin有些不同,台式机上的cygwin命令与MS-dos的类似;
  • nutch的安装和配置,将nutch解压缩(.gz后缀,可以直接用winRar解压)后将文件夹nutch-1.2(包含文件夹下所有文件)放置到c:/cygwin/home下(我放在c:/cygwin/home下);
  • 打开cygwin,在cygwin环境下进入nutch-1.2目录下(cd /cygdrive/c/cygwin/home/nutch-1.2),使用命令 bin/nutch进行测试,正常的情况下出现的结果是:

      nutch安装配置 tomcat6.0+nutch1.2安装配置(原创)_第1张图片

 

  • 抓取网站测试,在C:/cygwin/home/nutch-1.2/下新建一个目录urls,在urls下建一个url.txt文件用以保存需要搜索的网站,在文件中输入http://www.163.com,在C:/cygwin/home/nutch-1.2/下新建一个目录logs,在logs目录下新建log1.log文件用以保存日志文件
  • 打开C:/cygwin/home/nutch-1.2/conf/nutch-site.xml,按以下示例输入

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
 <configuration>
 <property>
  <name>http.agent.name</name>
  <value>mynutch</value>
  <description>test
  </description>
</property>
 <property>
  <name>http.agent.description</name>
  <value>spider</value>
  <description> spider
  </description>
</property>
 <property>
  <name>http.agent.url</name>
  <value>http://www.xxx.com </value>
  <description>http://www.xxx.com
  </description>
</property>
 <property>
  <name>http.agent.email</name>
  <value>MyEmail</value>
  <description>[email protected]
  </description>
</property>
 </configuration>

 

  • C:/cygwin/home/nutch-1.2/conf/crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*/.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*/.)*这几个字就可以了,表示所有http的网站都同意爬行)。

  • 运行爬虫,在Cygwin输入以下命令:

          bin/nutch crawl urls/url.txt -dir crawled -depth 4 -threads 5 -topN 1000 >&logs/log1.log

         这里-dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件

         运行结束后,你可以打开日志文件查看爬虫运行的详细过程。

 

  • 在tomcat上运行Nutch

把nutch-1.2.war拷贝到Tomcat//webapps/下面,重启tomcat,这步是为了使tomcat展开nutch-1.2.war,然后修改webapps/ nutch-1.2/WEB-INF/classes/nutch-site.xml文件如下:

 

 <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>searcher.dir</name>
<value>c:/cygwin/home/nutch-1.2/crawled</value>
</property>
</configuration>

 

  • 在浏览器中输入http://localhost:8080/nutch-1.2/
  • 为了支持中文的搜索,修改Tomcat/conf/server.xml。找到对应的地方修改成

connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>

你可能感兴趣的:(java,jdk,tomcat,c,浏览器,测试)