heritrix2

1.heritrix是比较出名的开源项目,首先到它官方网站下载安装,推荐在linux下安装,windows下也可以添加到eclipse中运行,但我运行出来的结果不是很好,有很多内置的模块在它自身提供的web管理页面上无法使用。

2.根据用户手册将安装包在本地解包后,设置环境变量HERITRIX_HOME,在conf目录下修改文件heritrix.properties,包括web控制台的端口以及管理用户名和密码,形如admin:admin。

3.在bin目录下将heritrix文件加上可执行属性,执行命令./heritrix -a admin:admin -b 0.0.0.0,这样就打开了heritrix的web控制端,在浏览器上输入管理页面地址:http://服务器IP:端口号,登录,就可以进行任务的设置

4.新建一个JOB,对照用户说明和每个设置项的说明设置相应的模块,对于抓取特定页面的任务关键点有:填写好种子地址,确保通过种子地址可以分析到你想要的页面,模块选择中,crawl scope选择org.archive.crawler.deciderules.DecidingScope,Extractors Processors 根据自己要求选择:org.archive.crawler.extractor.ExtractorHTTP首先要选择且放在首位,org.archive.crawler.extractor.ExtractorHTML也为必需,其他的可以全部移除,Writers Processors :如果是要保存为arc文档格式的选择ARCWriterProcessor,如果直接保存镜像文件的选择MirrorWriterProcessor,具体的保存地址在具体的设置里会有,也可以同时选择几种文件保存方式,heritrix会同时完成,其它的设置默认即可。在子模块部分decide-rules 加入MatchesListRegExpDecideRule,其它默认。 在具体设置里需要注意的是:seeds-as-surt-prefixes设为false,MatchesListRegExpDecideRule的regexp-list主要设置需要抓取页面的特定格式,可以使用正则表达式,其中.*匹配多个字符, max-hops的值表示从种子地址开始抓取的深度,这个需要根据实际情况修改,默认值为20.

5.heritrix比较复杂,需要根据自己的任务需求仔细研究,它的整个系统是插件式的,所以也可以在研究其源代码的基础上定制自己的http Extractors Processor,在conf\modules\Processor.options有详细定义。


你可能感兴趣的:(eclipse,Web,windows,正则表达式,浏览器,任务)