scrapy框架提升抓取效率

关于这个起始主要是在setting里设置,分为两种,一、改变已经存在的设置,二、增加必备的设置,本来想自己总结一下的,结果看到这个总结的已经不错了,就在这里分享给大家,如果有更多的补充的可以留言。

1、增加并发线程开启数量

  settings配置文件中,修改CONCURRENT_REQUESTS = 100,默认为32,可适当增加;

2、降低日志级别

  运行scrapy时会产生大量日志占用CPU,为减少CPU使用率,可修改log输出级别

  settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ;

3、禁止cookie

  scrapy默认自动保存cookie,占用CPU,如果不是真的需要cookie,可设置为不保存cookie,以减少CPU使用率,

  settings配置文件中:COOKIES_ENABLED = False 解开注释

4、禁止请求重试:

  对于失败的请求会重新发送,则会减慢爬取速度,因此可以在对丢失少量数据也不影响时,禁止重试,

  settings配置文件中加:RETRY_ENABLED = False ;

5、减少下载超时:

  如果对一个非常慢的链接进行爬取,减少下载超时可以让卡住的链接快速被放弃,从而提升效率,

  在settings配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 设置超时时间;

最后,说一下,虽然我们是追求最大的速度,但是考虑到别人的反爬技术,以及对别人服务器造成的巨大压力,还是建议把速度设置在合适的范围内。

原文链接:https://www.cnblogs.com/jayxuan/p/10840068.html,尊重一下原作者,表示感谢!

你可能感兴趣的:(scrapy框架提升抓取效率)