爬虫基础分享Scrapy框架流程图与安装

从头开发一个爬虫程序是一项烦琐的工作,为了避免因制造轮子而消耗大量时间,在实际应用中我们可以选择使用一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注于业务逻辑。所以,我们一起来了解开源的爬虫框架Scrapy。

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中,并且是跨平台的,在Linux、MaxOS以及windows平台都可以使用。

爬虫基础分享Scrapy框架流程图与安装_第1张图片

1.Scrapy主要包括了以下组件:

  • 引擎(Scrapy):
    用来处理整个系统的数据流处理, 触发事务(框架核心)

  • 调度器(Scheduler) :
    调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

  • 下载器(Downloader) :
    用于下载网页内容,并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

  • 爬虫(Spiders) :
    爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息,即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

  • 项目管道(Pipeline):
    负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

  • 下载器中间件(Downloader Middlewares):
    位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。

  • 爬虫中间件(Spider Middlewares):
    介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。

  • 调度中间件(Scheduler Middewares) :
    介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

2.Scrapy运行流程大概如下:

  1. 引擎从调度器中取出一个链接(URL)用于接下来的抓取
  2. 引擎把URL封装成一个请求(Request)传给下载器
  3. 下载器把资源下载下来,并封装成应答包(Response)
  4. 引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)
  5. 解析出实体(Item),则交给实体管道进行进一步的处理
  6. 解析出的是链接(URL),则把URL交给调度器等待抓取
  7. Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎
  8. 引擎将(Spider返回的)爬取到的Item给Item Pipeline,将(Spider返回的)Request给调度器

3.scrapy查询语法:

当我们爬取大量的网页,如果自己写正则匹配,会很麻烦,也很浪费时间,令人欣慰的是,scra

你可能感兴趣的:(Python入门,爬虫,python,数据库,经验分享)