python爬虫-scrapy五大核心组件和中间件

文章目录

  • 一、scrapy五大核心组件
      • Spiders(爬虫)
      • Scrapy Engine(Scrapy引擎)
      • Scheduler(调度器)
      • Downloader(下载器)
      • ItemPipeline(项目管道)
  • 二、工作流程
  • 三、中间件
      • 3.1 下载中间件
        • 3.1.1 UA伪装
        • 3.1.2 代理IP
        • 3.1.3 集成selenium
      • 3.2 爬虫中间件

一、scrapy五大核心组件

下面这张图我们在python爬虫-scrapy基本使用见到过,下面就稍微介绍一下scrapy的五大核心组件和中间件
python爬虫-scrapy五大核心组件和中间件_第1张图片

Spiders(爬虫)

         Spiders是用户需要编辑的代码的主要部分。用户通过编写spider.py这个类实现爬取指定网站地址、定义网址过滤规则、解析目标数据等。 Spider发出请求,并处理Scrapy引擎返回给它下载器响应数据,把解析到的数据以item的形式传递给ItemPipeline,把解析到的链接传递给Scheduler。

Scrapy Engine(Scrapy引擎)

         Scrapy引擎是用来控制整个系统的数据处理流程,并进行不同事务触发,是scrapy框架的核心。

Scheduler(调度器)

         调度器包含过滤器和一个url队列,调度器接受引擎发过来的请求,由过滤器过滤重复的url并将其压入url队列中,当引擎再次请求时,从url队列中取出下一个url返回给引擎

Downloader

你可能感兴趣的:(python爬虫,python,爬虫,中间件)