Eclipse下配置Heritrix1.14.4

最近在看邱哲等人编著的《开发自己的搜索引擎Lucene+Heritrix》一书,里面有一章专门讲Hertrix的配置问题的,可是感觉讲得很麻烦,其实很简单。故将自己的配置方法整理下:

由于Hertrix的是开源的网络爬虫工具,具有很强的可扩展性,开发者可以根据自己的抓取逻辑对其源码进行修改。但是如果你仅是想利用Hertrix进行网页的抓取,那么配置就更简单了。只需下载到SourceForge网站上下载Heritrix的jar包就ok了,但是如果你还想对其源码进行修改来研究Heritrix的实现那可以下载源代码包。

1、无需修改源码的配置方法

    1)解压下载到的heritrix-1.14.4.zip文件,目录结构如下:

Heritrix目录结构

将lib目录的jar包和当前目录下的hertrix-1.14.4.jar文件导入到Eclipse工程的Build Path下,然后将conf/和webapps/两个目录拷贝到工程下面即可。

    2)修改conf/目录下的heritrix.properties文件,找到heritrix.cmdline.admin所在行,在后面添加“用户名:密码”

    3)运行org.archive.crawler.Heritrix类,如果出现:

        11:29:36.768 EVENT  Starting Jetty/4.2.23
        11:29:36.935 WARN!! Delete existing temp dir C:\Users\ADMINI~1.ZGC\AppData\Local\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/IR/Lucene/HeritrixDemo/webapps/admin.war!/]
        11:29:37.098 EVENT  Started WebApplicationContext[/,Heritrix Console]
        11:29:37.339 EVENT  Started SocketListener on 127.0.0.1:8080
        11:29:37.339 EVENT  Started
org.mortbay.jetty.Server@a01335
        Heritrix version: 1.14.4

说明配置成功!然后在浏览器中输入http://localhost:8080然后输入用户名和密码即可登入!

2、利用源码的配置方法

   利用源码在Eclipse下配置有些麻烦,但只是相对利用Jar包的配置方法而言的~_~

  1、将heritrix-1.14.4.jar文件利用WinRAR工具解压出来,目录结构如下:

  Heritrix的jar包的目录结构

  按照该目录结构配置eclipse工程即可。

  2、将heritrix-1.14.4-src.zip解压,解压后目录结构如下:Heritrix源代码包结构

 

然后将lib/目录下的所有.jar包全部导入到工程的BuildPath下 ,然后将src/目录下的所有目录拷贝到工程的src目录下以及conf/目录、webapps/目录拷贝到工程下即可。同样修改conf/目录下的heritrix.properties文件。

3、(关键)将刚才解压的jar包中的除了源代码外的所有文件都拷贝到src/目录下,配置完毕!

 

配置完成后,到eclipse工程下刷新下,即可运行!

你可能感兴趣的:(Heritrix)