SCRAPY爬虫框架介绍

SCRAPY爬虫框架介绍_第1张图片

数据流的三个路径

(1)

 1.Engine从Spiders处获得爬取请求(REQUEST)

2.Engine将REQUESTS发给Scheduler,用于调度。

(2)

1.Engine从Scheduler获得下一个要爬取的请求。

2.Engine将爬取的Request通过中间件发给downloader。

3.爬取网页后,Downloader形成response通过中间件发给Engine。

4.Engine再将response通过中间件交给Spider处理。

(3)

1.Spider处理response后产生scraped items 和新的Resquests给Engine。

2.Engine将scraped items 发送给ITEM PIPLINES.

3.Engine继续将新的Request发给Scheduler用于调度。

SCRAPY爬虫框架介绍_第2张图片

 SCRAPY爬虫框架介绍_第3张图片

 Engine:控制所有模块间的数据流,根据条件触发事件。

Downloader:根据请求下载网页。

Scheduler:对所有爬取请求进行调度管理。

Downloader Middleware:实施Engine,Scheduler和Downloader之间进行用户可配置的控制。

 Spiders:

(1)解析downloader返回的Response

(2)产生新的Request

(3)产生Scraped Item

Item PIPLINES:

(1)以流水线方式处理Spider产生的scraped items 

(2)可能操作包括:清理,检验和查重scraped items中的html数据,并存到database中。

Spider Middleware:对request和scraped items 的再处理。

Scrapy爬虫的常用命令:

SCRAPY爬虫框架介绍_第4张图片

 SCRAPY爬虫框架介绍_第5张图片

 

 

你可能感兴趣的:(数据采集与预处理,scrapy,爬虫,python)