Scrapy简单笔记(三)

Scrapy功能介绍

示例的scrapy项目非常的简单,熟练爬虫的程序员可以一个脚本搞定以上全部内容,但scrapy并不是一个简单的打开、分析、下载操作集合

  • 它有非常强大的拓展功能,可以非常方便的定制爬虫的一些特性
  • 将调度器、下载、分析、数据清理等操作分割,管理和拓展都非常的方便

1、下载项目图片

Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。

这条管道,被称作图片管道,在 ImagesPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片:

  • 将所有下载的图片转换成通用的格式(JPG)和模式(RGB)
  • 避免重新下载最近已经下载过的图片
  • 缩略图生成
  • 检测图像的宽/高,确保它们满足最小限制

2、自动限速扩展

该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。

设计目标

  • 更友好的对待网站,而不使用默认的下载延迟0。
  • 自动调整scrapy来优化下载速度,使得用户不用调节下载延迟及并发请求数来找到优化的值。 用户只需指定允许的最大并发请求数,剩下的都交给扩展来完成。

3、Jobs:暂停,恢复爬虫

有些情况下,例如爬取大的站点,我们希望能暂停爬取,之后再恢复运行。

Scrapy通过如下工具支持这个功能:

  • 一个把调度请求保存在磁盘的调度器
  • 一个把访问请求保存在磁盘的副本过滤器[duplicates filter]
  • 一个能持续保持爬虫状态(键/

Scrapy课程链接:http://study.163.com/course/courseMain.htm?courseId=1003666043

Python教程、教程--传送门


!放在最后

以上就是本篇文章的全部介绍内容了

如果文章中有什么错误或者建议修改的地方,欢迎留言纠正和回复

如果你喜欢本篇文章,不妨关注一下我们的公众号,每周更新两篇原创技术文档,都是干货

微信公众号二维码美化图001.png

你可能感兴趣的:(Scrapy简单笔记(三))