Eclipse下配置Heritrix

 

琢磨了一天,终于算是把Heritrix在eclipse下配置成功了,一下是配置过程:

1、下载Heritrix-1.10.0 可以到SourceForge.net上去下载,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980

2、解压缩Heritrix-1.10.0文件包在本地磁盘中解压缩,用到的时候,直接拷贝文件即可。

3、新建Java Project工程,在Eclipse中新建一个Java Project工程,工程名称为Heritrix。

将Heritrix-1.10.0源文件夹内的lib文件夹拖到Heritrix项目工程下

4、右击工程Heritrix,在弹出的菜单中选择“Build Path->Configure Build Path”,弹出Properties of Heritrix窗口,选择Libraries选项卡,单击右边的Add External JARs。。

将刚才添加到工程项目下的lib文件夹里的所有.jar选中,单击打开“完成”添加运行库的任务。

5、将源文件下的src/java/的org和st两个文件夹直接拖到Heritrix工程项目下的src文件夹内

6、将源文件下的src/conf/下的所有文件和文件夹拖到Heritrix工程项目的src内,并找到heritrix.properties打开,

##############################################################################
# H E R I T R I X P R O P E R T I E S
##############################################################################

# Properties with 'heritrix.' or 'org.archive.crawler.' prefix get loaded
# into System.properties on startup so available via System.getProperties.

# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = @VERSION@

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin =
heritrix.cmdline.port = 8080
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

上面四行红色标识的代码行,一般来说,需要修改。

第一行,heritrix.version指定了Heritrix的版本号,修heritrix.version = 1.10.0

第二行,heritrix.jobsdir指定了Heritrix在执行抓取任务时,抓取到的内容存放的目录,默认在工程下面的jobs目录下面。

第三行,heritrix.cmdline.admin指定了登录WebUI时使用的帐号,默认为空,可以自己随意设定,设定需要按照一定的格式(用户名:密码),我们修改为:

heritrix.cmdline.admin = admin:admin

其中,用户名和密码使用“:”分隔。

第四行,heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,可以设置一个当前没有占用的端口号,比如我们修改为:

heritrix.cmdline.port = 8085

7、将源文件下的src下的其他文件夹,除conf和java两个文件夹,全部拖到Heritrix工程项目下。

8、右击Heritrix项目工程,字啊run as里设置run configuration,Browse选择工程项目,点击search,输入Heritrix后,弹出Heritrix—org archivecrawler,选择。

点击Apply,Heritrix在控制台输出一段信息:、

04/25/2010 07:42:16 +0000 信息 org.archive.crawler.Heritrix getJndiContext No JNDI Context.
07:42:16.933 EVENT  Starting Jetty/4.2.23
07:42:17.717 EVENT  Started WebApplicationContext[/,Heritrix Console]
07:42:17.968 EVENT  Started SocketListener on 127.0.0.1:8080
07:42:17.968 EVENT  Started org.mortbay.jetty.Server@171732b
04/25/2010 07:42:18 +0000

9 在地址栏输入:HTTP://localhost:8080,可以看到Heritrix的登录界面,输入admin:admin可以登录。

 

警告 ... 警告...警告.....

 Heritrix version: @VERSION@这里省略了3处警告的内容,还在查找原因,已经运行。

你可能感兴趣的:(Eclipse下配置Heritrix)