Heritrix1.14.4 Web后台使用简介

        启动Heritrix后,访问http://localhost:6789就可以打开Heritrix的登录界面,登录后即进入了Heritrix Web后台的主页:
Heritrix1.14.4 Web后台使用简介_第1张图片
 console: Heritrix的控制台,会显示Heritrix的抓取任务和分配给HeritrixHeap使用情况

   JobsHeritrix的抓取任务界面,比如创建抓取任务,已挂起的任务,已完成的任务统计

   Profiles:Heritrix抓取任务相关的配置

   Logs:Heritrix的运行日志

   Reports:Heritrix的统计报表

   Setup:Heritrix实例管理界面以及Heritrix后台登录帐号密码修改

   Help:Heritrix的使用帮助文档

 

 首先我们需要切到Jobs界面,创建一个Job,如图:
Heritrix1.14.4 Web后台使用简介_第2张图片
 

  根据一个已经存在的job创建抓取任务

2.   根据一个抓取任务备份来创建抓取任务

3.   根据配置创建抓取任务

4.   按照默认方式创建抓取任务

asd   

    一般我们选择第3种创建方式:
Heritrix1.14.4 Web后台使用简介_第3张图片
 
Heritrix1.14.4 Web后台使用简介_第4张图片
 
Heritrix1.14.4 Web后台使用简介_第5张图片
 
Heritrix1.14.4 Web后台使用简介_第6张图片
 
关于Settings里相关配置项的含义解释说明请看下面这张图:
Heritrix1.14.4 Web后台使用简介_第7张图片
 
修改好后提交创建job,然后就能切到Console界面点击Start来启动抓取任务进行页面抓取
Heritrix1.14.4 Web后台使用简介_第8张图片
 
Heritrix1.14.4 Web后台使用简介_第9张图片
 
抓取到的网页默认保存在heritrix_hone\jobs目录下,我们创建的每个job都会在jobs目录下生成一个文件夹,命名方式为job名称+当前时间戳的方式,如图:
Heritrix1.14.4 Web后台使用简介_第10张图片
 
虽然Heritrixweb后台是全英文的,但我觉得没什么使用难度,你们多点点它的功能,从宏观上多感受下Heritrix的强大之处。最后是多阅读下Help界面里列出的一些帮助文档,这是你学习Heritrix最宝贵的资料:
Heritrix1.14.4 Web后台使用简介_第11张图片
 

  益达的GitHub地址请猛戳我,用力,吃点劲儿!!!

益达的新浪微博:看这里,看这里

益达的技术交流社区:码农们,I want you!!!

 

   益达Q-Q:                7-3-6-0-3-1-3-0-5

 

 

   益达的Q-Q群:      1-0-5-0-9-8-8-0-6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Heritrix)