Heritrix 在 elipse下的配置

1.到官方网站 下载Heritrix-1.2.1.zip 和  Heritrix-1.2.1- src.zip ;

2.分别 解压到目录 Heritrix-1.2.1 和Heritrix-1.2.1-src 下 ;

3.新建一 Java Project 项目,项目名随便,例如:her

4.复制 Heritrix-1.2.1-src/src/java/目录下的 com 、org、st 三个文件夹到

           项目her 的根目录 her下面

        把heritrix-1.12.1-src/src下的webapps文件夹拷贝到 根目录 her下面

           解压 Heritrix-1.2.1  目录下的   Heritrix-1.2.1.jar文件;复制解压后目录

    下的 arcMetaheaderBody.xsl   heritrix.properties jndi.properties warcinfobody.xsl

          Modules   profiles   selftest   6个文件到 根目录 her下面;

     5. 在此项目(her)的 Properties-->Java Build Path -->Add External jar 引入

        Hertrix-1.2.1-src/lib目录下的所有jar包

     6    注: 这一部很关键,一定要改的,否则可能运行不出来,本人在此处是受了 n 小时的 " 折磨",

     在Heritrix.properties 找到 " heritrix.cmdline.admin =   "   修改为

      " heritrix.cmdline.admin = admin:admin " 其中admin:admin为名称和密码

           运行 Org.archive.crawler.Heritrix.java    文件

      运行成功 控制台会有显示:

             14:32:13.468 EVENT Starting Jetty/4.2.23              14:32:14.703 EVENT Started WebApplicationContext[/,Heritrix Console]            14:32:14.843 EVENT The scratchDir you specified: C:/Documents and                       Settings/Administrator/workspace/a/target/jsp-compiled-development is unusable.             14:32:15.000 EVENT Started SocketListener on 127.0.0.1:8080             14:32:15.000 EVENT Started org.mortbay.jetty.Server@179c285               Heritrix version: 1.12.1

7.      在浏览器中输入http://localhost:8080/就可以启动,此时会出现登陆对话框,8080是默认端口,可    以       在 Heritrix.properties属性文件中进行配置.

       Over!!! (如果还有不懂请留言...)

 

       补充 :

   1. heritrix官方下载地址:

http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980

   2 .在运行http://127.0.0.1:8080/ 时遇到以下错误,在页面中: HTTP ERROR: 500 Unable+to+compile+class+for+JSP%0A%0AAn+error+occurred+at+line%3A+%   2D1+in+the+jsp+file%3A+null%0A%0AGenerated+servlet+error%3A%0A++++%5Bjavac%     5D+Compiling+1+source+file%0A%0A%0A

        你检查一下wegapps目录下面有没有 admin.war,selftest.war

      这两个文件, 需要将admin.war,selftest.war 复制到其下面.

你可能感兴趣的:(Heritrix 在 elipse下的配置)