eclipse下配置Heritrix1.14.4

Heritrix是一个强大的开源的爬虫工具,现在已经更新到3.1.0,但是最新版本好像文档不齐全,而且改变很大,所以这次还是用老版本1.14.4

要在eclipse下配置Heritrix,我们需要以下步骤:

1.下载heritrix-1.14.4-src.zipheritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP 包;可以在crawler.archive.org/downloads.html下载

2.Eclipse下新建Java项目,取名Heritrix

3.复制SRC包下面src/java文件夹下orgcomst三个文件夹到src目录下(D:\eclipse\Heritrix\src)

4.复制SRC包下srcresources文件夹到项目根目录;复制conf到项目根目录。

5.复制SRC包下lib文件夹到项目根目录;

6.复制ZIP包下webapps文件夹到项目根目录;

7.Eclipse中修改项目confheritrix.properties文件(
       
@VERSION@ 改为 1.14.4
  
    heritrix.cmdline.admin =admin:admin
    
  heritrix.cmdline.port = 9090 

8.在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar件选中,点击完成!

9.切换到eclipse窗口下,刷新下工程,发现会报错找不到类sun.net.www.protocol.file.FileURLConnection。这是因为sun包是受保护的包,默认只有sun    公司的软件才能使用。Eclipse会报错,把对保护使用waring就可以了。修改方式:

   Windows ->Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated andtrstricted API -> Forbidden reference (access rules): ->    change to warning

   然后刷新就OK了。

10.在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置 ->classpath->点击右边的ADVANCED->ADDFOLDER->选择根目录下的conf->RUN 即可

控制台出现一下信息说明已成功.
07:33:40.174EVENT  Starting Jetty/4.2.23
07:33:40.215 WARN!! Delete existing temp dirC:\Users\gztzho\AppData\Local\Temp\Jetty_127_0_0_1_8080__ forWebApplicationContext[/,jar:file:/D:/workspace/MyHeritrix/webapps/admin.war!/]

07:33:40.294 EVENT  StartedWebApplicationContext[/,Heritrix Console]
07:33:40.358 EVENT  StartedSocketListener on 127.0.0.1:8080
07:33:40.359 EVENT  Startedorg.mortbay.jetty.Server@a01335
Heritrix version: 1.14.4

然后在浏览器里输入http://localhost:9090既可以访问了

 


你可能感兴趣的:(搜索引擎,爬虫,Heritrix)