----------------------抓取部署任务 start--------------------
1.选jobs-based on a profile 创建一个新的工作任务
2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com
3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:
[email protected]
4.设置submodules
请严格按照以下方式来设置:
1). frontier
org.archive.crawler.frontier.BdbFrontier
2). scope
org.archive.crawler.scope.BroadScope
3). Prefetcher
org.archive.crawler.prefetch.Preselector
org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP
5). Extractor
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
6). Writer
可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler
(FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------