2018-09-19 scrapy-Pipeline(一)

当item进入pipeline的时候就要经过一个个管道,入库或者进行其他作用。先介绍scrapy内置的Pipeline图片管道和文件管道

图片管道

首先如果要用图片管道那么就必须启用item,用item对象才能完成对图片的读写

在items文件中的某一个Item类中,我们需要img_urls和images作为成员变量

img_urls装载的是图片链接,

images是不需要在spider中被赋值的,在图片管道文件中,如果这个images对应的img_urls是正确的,那么下载到的图片信息会传递给这个images

在settings文件中,我们要指出他的存储路径,用

IMAGES_STORE这个名字(不能乱改的)

并且可以在IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH中设置图片的最小宽度和长度设定好这些就直接开始爬就完事儿了

IMAGES_EXPIRES可以设置有效的图片时间,这个90天中是不会再一次下载这个图片

IMAGES_THUMBS这个可以设置缩略图

你可能感兴趣的:(2018-09-19 scrapy-Pipeline(一))