Heritrix抓取网页

先下得完整开发包,我版本为1.10.0

设置heritrix.properties中的用户名、密码

heritrix.cmdline.admin = admin:fushizhe

 运行主类org/archive/crawler/Heritrix.java


Heritrix抓取网页_第1张图片

使用设置的用户名登录,创建一个job,with defaults

设置抓取网站


Heritrix抓取网页_第2张图片
 继续Modules


Heritrix抓取网页_第3张图片


Heritrix抓取网页_第4张图片

 
Heritrix抓取网页_第5张图片

 再settings

设置 max-toe-threads,默认为100,看需要多少合适。



 修改@VERSION@为当前版本号1.10.0,PROJECT_URL_HERE为完整URL地址

CONTACT_EMAIL_ADDRESS_HERE为email地址,然后submit job,并start


Heritrix抓取网页_第6张图片

 此时可看到任务的进度,logs中任务信息


Heritrix抓取网页_第7张图片

在项目中的job中保存抓取的内容如:


Heritrix抓取网页_第8张图片

 

你可能感兴趣的:(Heritrix)