十六、Scrapy框架–下载器中间件讲解

下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件，可以在下载器中实现两个方法。一个是process_request(self, request, spider)，这个方法是在请求发送之前会执行，还有一个是process_reponse(self, request, response, spider)，这个方法是数据下载到引擎之前执行。

（1）、process_request(self, request, spider)：

这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。

1、参数：

1、request：发送请求的 request 对象。

2、spdier：发送请求的 spider 对象。

2、返回值：

1、返回 None：如果返回 None，Scrapy 将继续处理该 request，执行其他中间件中的相应方法，直到合适的下载器处理函数被调用。

2、返回 Response 对象：Scrapy 将不会调用任何其他的 process_request 方法，将直接返回这个 response 对象。已经激活的中间件的 process_response() 方法则会在每个 response 返回时被调用。

3、返回 Request 对象：不再使用之前的 request 对象去下载数据，而是根据现在返回的 request 对象返回数据。

4、如果这个方法中抛出了异常，则会调用process_exception方法。

（2）、process_response(self, request, response, spider)方法：

这个是下载器下载的数据到引擎中间会执行的方法。

1、参数：

1、request：发送请求的 request 对象。

2、response：被处理的 response 对象。

3、spdier：发送请求的 spider 对象。

2、返回值：

1、返回 Response 对象：会将这个新的 response 对象传给其他中间件，最终传给爬虫。

2、返回 Request 对象：下载器链被切断，返回的 request 会重新被下载器调度下载。

3、如果抛出一个异常，那么调用 request 的 errback 方法，如果没有指定这个方法，那么会抛出一个异常。

上一篇文章第六章 Scrapy框架（十五） 2020-03-17 地址：

https://www.jianshu.com/p/5053c6dddbcc

下一篇文章第六章 Scrapy框架（十七） 2020-03-19 地址：

https://www.jianshu.com/p/ff249126bcd3

以上资料内容来源网络，仅供学习交流，侵删请私信我，谢谢。

第六章 Scrapy框架（十六） 2020-03-18

十六、Scrapy框架–下载器中间件讲解

你可能感兴趣的:(第六章 Scrapy框架（十六） 2020-03-18)