Scarpy文件&图片下载(FilesPipeline和ImagesPipeline)

零、所用环境

macOS 10.14.1

Python 3.6.3

scrapy 1.5.1

一、文件下载(基于FilesPipeline)

适用于下载包括但不限于PDF的各种文件。

1、item.py(files未显性用到)

item.py

2、spider_name.py(yield url列表即可)

spider_name.py

3、pipelines.py

pipelines.py

注:FilePipeline为自定义Pipeline名字。

4、settings.py

settings.py

注:file_download为项目名,FilePipeline为pipelines.py中自定义的Pipeline。

二、图片下载(基于ImagesPipeline)

仅适用于下载图片(与文件下载同理)。

1、item.py

item.py

2、spider_name.py

spider_name.py

3、pipelines.py

pipelines.py

4、settings.py

settings.py

三、FilesPipeline和ImagesPipeline的区别

FilesPipeline和ImagesPipeline的区别

四、参考资料

1、Scrapy下载及处理文件和图片(官方文档)

https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/media-pipeline.html#files-pipeline

注:亲测官方demo都可跑通,一二两个自定义pipelines也是基于官方demo完成。

2、使用FilesPipeline和ImagesPipeline

https://www.jianshu.com/p/a412c0277f8a

你可能感兴趣的:(Scarpy文件&图片下载(FilesPipeline和ImagesPipeline))