Heritrix3.3.0源码阅读 让爬虫停不下来

在文章Heritrix3.3.0源码阅读 动态加载种子中说过,Heritrix3.3.0有一个很实用的功能,就是在抓取开始之后,依然可以通过在指定目录里放入种子文件的方式向爬虫添加新的种子,这是通过定时扫描这个指定放种子文件的目录加载种子文件然后发布种子来实现的。可是,默认情况下,当发现frontier为空后,爬虫就会停止,不再扫描那个目录。我们可以修改类org.archive.crawler.framework.CrawlController的下面这个域来改变默认行为:

/** whether to keep running (without pause or finish) when frontier is empty */
protected boolean runWhileEmpty = false; 

只需将runWhileEmpty的值设为true,爬虫便在frontier发现为空后也不会停止。

你可能感兴趣的:(源码,爬虫,Heritrix)