scrapy 速度优化

主要有三个设置项来控制下载器的容量:CONCURRENT_REQUESTS,CONCURRENT_REQUESTS_PER_DOMAIN和 

CONCURRENT_REQUESTS_PER_IP。

CONCURRENT_REQUESTS设置项:提供了一个粗略的控制,无论如何不会有超过该数目的请求被并发下载。

CONCURRENT_REQUESTS_PER_DOMAIN设置项:针对目标域名提供对并发请求数目的更进一步的限制

CONCURRENT_REQUESTS_PER_IP设置项:针对每个IP进行限制

如果你设置了CONCURRENT_REQUESTS_PER_IP,那么CONCURRENT_REQUESTS_PER_DOMAIN就会被忽略,这时的限制会是针对每个IP的。

为了简化工作,把CONCURRENT_REQUESTS_PER_IP保持为默认值(0),禁用了对每个IP的限制,把CONCURRENT_REQUESTS_PER_DOMAIN设置成一个很大的值(1000000) 。实际上禁用这些限制,下载器的并发请求数目就只由CONCURRENT_REQUESTS来控制了。

你可能感兴趣的:(爬虫)