本来应该挺简单的,自己没按官网教程做,走了些弯路。
官网的教程地址是https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+in+Eclipse。
有个中文的教程参见:http://www.jishuziyuan.com/archive/hapepylife1527/8233893.html
1:首先安装好java和eclipse,java版本要大于1.6
2:安装maven和git
3:可以从git下载最新版本,也可以从官网下载稳定版,我下载的是稳定版本3.1.1
4:解压下载版本,进入解压目录,执行
mvn -Dmaven.test.skip=true install5:导入eclipse,要按File / Import... / Existing Projects Into Workspace ... choose ~/workspace/heritrix3方式导入,千万不能按maven项目方式导入,我就是这个没仔细看,想当然的按maven项目方式导入,结果运行时出现:java.lang.ClassNotFoundException: org.archive.crawler.Heritrix
6:设置M2_REPO变量,这个应该不用设置就存在了,如果发现不能运行再检查这一步
7:启动配置:
启动后程序将监听在8443端口,但只是127.0.0.1,你可以用-b参数添加监听地址,所有地址都监听是-b /,我的配置最后如下:
-a PASSWORD -l dist/src/main/conf/logging.properties -b /
8:启动
9:web访问8443端口,注意是要用https协议,http是不行的,访问时会提示下载证书添加例外