Heritrix是一个强大的开源的爬虫工具,现在已经更新到3.1.0,但是最新版本好像文档不齐全,而且改变很大,所以这次还是用老版本1.14.4
要在eclipse下配置Heritrix,我们需要以下步骤:
1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP 包;可以在crawler.archive.org/downloads.html下载
2.在Eclipse下新建Java项目,取名Heritrix;
3.复制SRC包下面src/java文件夹下org、com、st三个文件夹到src目录下(即D:\eclipse\Heritrix\src);
4.复制SRC包下src下resources文件夹到项目根目录;复制conf到项目根目录。
5.复制SRC包下lib文件夹到项目根目录;
6.复制ZIP包下webapps文件夹到项目根目录;
7.在Eclipse中修改项目conf下heritrix.properties文件(
@VERSION@ 改为 1.14.4
heritrix.cmdline.admin =admin:admin
heritrix.cmdline.port = 9090
8.在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!
9.切换到eclipse窗口下,刷新下工程,发现会报错找不到类sun.net.www.protocol.file.FileURLConnection。这是因为sun包是受保护的包,默认只有sun 公司的软件才能使用。Eclipse会报错,把对保护使用waring就可以了。修改方式:
Windows ->Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated andtrstricted API -> Forbidden reference (access rules): -> change to warning
然后刷新就OK了。
10.在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置 ->classpath->点击右边的ADVANCED->ADDFOLDER->选择根目录下的conf->RUN 即可
控制台出现一下信息说明已成功.
07:33:40.174EVENT Starting Jetty/4.2.23
07:33:40.215 WARN!! Delete existing temp dirC:\Users\gztzho\AppData\Local\Temp\Jetty_127_0_0_1_8080__ forWebApplicationContext[/,jar:file:/D:/workspace/MyHeritrix/webapps/admin.war!/]
07:33:40.294 EVENT StartedWebApplicationContext[/,Heritrix Console]
07:33:40.358 EVENT StartedSocketListener on 127.0.0.1:8080
07:33:40.359 EVENT Startedorg.mortbay.jetty.Server@a01335
Heritrix version: 1.14.4
然后在浏览器里输入http://localhost:9090既可以访问了