Heritrix eclipse创建java可运行程序的步骤

爬虫框架Heritrix ,如何修改其源码,并能在java控制台下运行的方法如下:

首先打开eclipse,创建一个java程序;

1、复制 ...\heritrix-1.14.4-src\heritrix-1.14.4\src\java 目录下com,org,st 这三个文件到工程的src目录下


2、复制...\heritrix-1.14.4-src\heritrix-1.14.4\lib文件,到工程的根目录下,并且添加到classpath中,此时工程会提示错误。第三步解决这个问题。

3、右键点击项目,选择properties,修改java complier,选择Configure Workspace Settings...,再修改Deprecate and restrictied API,把error改成warnning,解决Heritrix.java文件报错的方法。



4、复制...\heritrix-1.14.4-src\heritrix-1.14.4\conf文件至工程的根目录的src源文件下,并且修改heritrix.properties ,将 jmxremote.password.template,修改成jmxremote.password文件




5、复制webapps文件至工程的根目录


6、复制...\heritrix-1.14.4-src\ heritrix-1.14.4 \ src \resources\org\archive\utiltlds-alpha-by-domain.txt至org.archive.util目录下


7、以上操作都是在src文件下进行的,要heritrix-1.14.4(非src包)下的admin.war文件,当然还需要在复制admin.war文件至webapps下


8、加载conf文件到run 中classpath里面

你可能感兴趣的:(爬虫,Heritrix)