Heritrix学习及部署(三)

----------------------抓取部署任务 start--------------------
1.选jobs-based on a profile 创建一个新的工作任务

2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com

3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:[email protected]

4.设置submodules
请严格按照以下方式来设置:
1). frontier
     org.archive.crawler.frontier.BdbFrontier
2). scope
     org.archive.crawler.scope.BroadScope
3). Prefetcher
     org.archive.crawler.prefetch.Preselector
     org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
     org.archive.crawler.fetcher.FetchDNS
     org.archive.crawler.fetcher.FetchHTTP
5). Extractor
     org.archive.crawler.extractor.ExtractorHTTP
     org.archive.crawler.extractor.ExtractorHTML
6). Writer
     可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
      org.archive.crawler.postprocessor.CrawlStateUpdater
      org.archive.crawler.postprocessor.LinksScoper
      org.archive.crawler.postprocessor.FrontierScheduler
     (FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------


你可能感兴趣的:(Heritrix)