1.到官方网站 下载Heritrix-1.2.1.zip 和 Heritrix-1.2.1- src.zip ;
2.分别 解压到目录 Heritrix-1.2.1 和Heritrix-1.2.1-src 下 ;
3.新建一 Java Project 项目,项目名随便,例如:her
4.复制 Heritrix-1.2.1-src/src/java/目录下的 com 、org、st 三个文件夹到
项目her 的根目录 her下面
把heritrix-1.12.1-src/src下的webapps文件夹拷贝到 根目录 her下面
解压 Heritrix-1.2.1 目录下的 Heritrix-1.2.1.jar文件;复制解压后目录
下的 arcMetaheaderBody.xsl heritrix.properties jndi.properties warcinfobody.xsl
Modules profiles selftest 6个文件到 根目录 her下面;
5. 在此项目(her)的 Properties-->Java Build Path -->Add External jar 引入
Hertrix-1.2.1-src/lib目录下的所有jar包
6 注: 这一部很关键,一定要改的,否则可能运行不出来,本人在此处是受了 n 小时的 " 折磨",
在Heritrix.properties 找到 " heritrix.cmdline.admin = " 修改为
" heritrix.cmdline.admin = admin:admin " 其中admin:admin为名称和密码
运行 Org.archive.crawler.Heritrix.java 文件
运行成功 控制台会有显示:
14:32:13.468 EVENT Starting Jetty/4.2.23 14:32:14.703 EVENT Started WebApplicationContext[/,Heritrix Console] 14:32:14.843 EVENT The scratchDir you specified: C:/Documents and Settings/Administrator/workspace/a/target/jsp-compiled-development is unusable. 14:32:15.000 EVENT Started SocketListener on 127.0.0.1:8080 14:32:15.000 EVENT Started org.mortbay.jetty.Server@179c285 Heritrix version: 1.12.1
7. 在浏览器中输入http://localhost:8080/就可以启动,此时会出现登陆对话框,8080是默认端口,可 以 在 Heritrix.properties属性文件中进行配置.
Over!!! (如果还有不懂请留言...)
补充 :
1. heritrix官方下载地址:
http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980
2 .在运行http://127.0.0.1:8080/ 时遇到以下错误,在页面中: HTTP ERROR: 500 Unable+to+compile+class+for+JSP%0A%0AAn+error+occurred+at+line%3A+% 2D1+in+the+jsp+file%3A+null%0A%0AGenerated+servlet+error%3A%0A++++%5Bjavac% 5D+Compiling+1+source+file%0A%0A%0A
你检查一下wegapps目录下面有没有 admin.war,selftest.war
这两个文件, 需要将admin.war,selftest.war 复制到其下面.