为了更好地使用Scrapy这个爬虫框架,首先要对这个框架做一个简单的了解,下图显示了Scrapy的基本组件以及组件间的联系:
下面解释下Scrapy各组件的作用:
1、Scrapy Engine(Scrapy引擎)
Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。也就是说,Scrapy引擎将各个组件联系在一起,是Scrapy的核心部分。
2、Scheduler(调度器)
调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。调度器本质就是一个高级队列的封装,Scrapy从队列中出队列请求进行执行,然后组件执行时可以通过引擎向调度器入队列,实现任务的细化与拓广。
3、Downloader(下载器)
下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。
4、Spiders(蜘蛛)蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。
蜘蛛的整个抓取流程(周期)是这样的:
5、Item Pipeline(项目管道)
项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。
项目管道通常执行的过程有:
6、Downloader middlewares(下载器中间件)
下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。
7、Spider middlewares(蜘蛛中间件)
蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。
8、Scheduler middlewares(调度中间件)
调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。
先简单说一下爬虫,爬虫的本质是一个计算机应用程序,作为计算机应用程序,输入是目的,输出是结果,逻辑是过程。那么引申到爬虫,可以得出爬虫程序的输入是种子Url,输出是格式化后的数据,逻辑就是种子URL到一系列数据的转换。那么结合图片以及上述介绍,可以得出Scrapy的主要运行方式如下:
注:
以上部分内容摘自:https://www.magentonotes.com/python-scrapy-architecture.html?utm_source=tuicool&utm_medium=referral
在此感谢原作者的经验分享。