Heritrix控制抓取速度

Heritrix通过三个参数来控制爬虫抓取的速度,位于每个Job的setting处,如图:

Heritrix控制抓取速度_第1张图片

delay-factor是一个因子,表示两次抓取之间的delay应该是上一次抓取的延迟 * delay-factor:

举例来说,如果将delay-factor设置为4,前一次抓取花费了500ms的时间,那么要间隔 500ms * 4 = 2s的时间才进行下一次的抓取;

这个参数的好处在于它可以动态的控制抓取的速度,如果网站繁忙,那么自然每次抓取的时间相对较长,则我们两次抓取之间的间隔时间也变长。这样不会影响到被抓取网站的性能。

max-delay-ms 和 min-delay-ms则是抓取间隔的下限和上限。

min-delay-ms设置为2000ms,表示无论抓取的时间有多快(假设几ms就能够完成抓取),也无论delay-factor设置得多小,那么至少两次抓取之间的间隔要有2000ms;

max-delay-ms同理。

通过这三个参数,我觉着已经能够很好的控制爬虫的抓取速度了。

其实,一个爬虫速度的基本原则就是不影响被抓取网站的性能。否则就可能被目标网站封了,损人不利己。



你可能感兴趣的:(delay)