Scrapy框架介绍



scrapy (三)各部分意义及框架示意图详解

一、 框架示意图

Scrapy 由  Python  编写 一个快速、高层次的屏幕抓取和 web 抓取框架,用于抓取 web 站点并从页面中提取结构化的数据。 Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

 

 

 

1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动,并在相应动作发生时触发事件。


2、Scheduler(调度器): 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。


3、Downloader(下载器): 下载器负责获取页面数据并提供给引擎,而后提供给spider。


4、Spider(爬虫): Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。


5、Item Pipeline(管道): Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存储到数据库中)。


6、Downloader Middlewares(下载中间件): 下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

7、Spider Middlewares(Spider中间件): Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。



(2).最新版

Scrapy框架介绍_第1张图片

1、引擎:怎么样,爬虫老弟,搞起来啊!

2、Spider:好啊,老哥,来来来,开始吧。今天就爬xxx网站怎么样

3、引擎:没问题,入口URL发过来!

4、Spider:呐,入口URL是https://ww.xxx.com。

5、引擎:调度器老弟,我这有request请求你帮我排序入队一下吧。

6、调度器:引擎老哥,这是我处理好的request。

7、引擎:下载器老弟,你按照下载中间件的设置帮我下载一下这个request请求。

8、下载器:可以了,这是下载好的东西。(如果失败:sorry,这个request下载失败了。然后引擎告诉调度器,这个request下载失败了,你记录一下,我们待会儿再下载)

9、引擎:爬虫老弟,这是下载好的东西,下载器已经按照下载中间件处理过了,你自己处理一下吧。

10、Spider:引擎老哥,我的数据处理完毕了,这里有两个结果,这个是我需要跟进的URL,还有这个是我获取到的Item数据。

11、引擎:管道老弟,我这儿有个item你帮我处理一下!

12、引擎:调度器老弟,这是需要跟进URL你帮我处理下。(然后从第四步开始循环,直到获取完需要全部信息)






二、爬虫人员的主要工作

 

1 、创建一个 Scrapy 项目

2 、定义提取的 Item

3 、编写爬取网站的  spider  并提取  Item

4 、编写  Item Pipeline  来存储提取到的 Item( 即数据 )

 

三、 scrapy 基本流程

 

 

 

 

 

 

四、 scrapy  框架各部分详解

1、   Scrapy Items   定义您想抓取的数据

import scrapy

class TorrentItem(scrapy.Item):

    name = scrapy.Field()

2、spiders: 编写提取数据的 Spider

1 ) 定义初始 URL 根网址   针对后续链接的规则以及从页面中提取数据的规则 (即写正则或 xpath 等等)

2 ) 执行 spider ,获取数据

运行 spider 来获取网站的数据,并以 JSON 格式存入到 scraped_data.json   文件中 :

terminal : scrapy crawl mininova -o scraped_data.json

3、编写 item  pipeline   将 item存储到数据库中

注:

1 Item Spider 中被收集之后,它将会被传递到 Item Pipeline ,一些组件会按照一定的顺序执行对 Item 的处理

2 ) 每个 item pipeline 组件 ( 有时称之为 “Item Pipeline”) 是实现了简单方法的 Python 类。他们接收到 Item 并通过它执行一些行为,同时也决定此 Item 是否继续通过 pipeline ,或是被丢弃而不再进行处理。

3 ) item pipeline 的一些典型应用:

a )清理 HTML 数据

b )验证爬取的数据 ( 检查 item 包含某些字段 )

c )查重 ( 并丢弃 )

4 )将爬取结果保存到数据库中

4、编写自己的item pipeline

注:每个 item pipiline 组件是一个独立的 Python 类,同时必须实现以下方法 :

1 ) process_item(item, spider)

每个 item pipeline 组件都需要调用该方法,这个方法必须返回一个  Item ( 或任何继承类 ) 对象, 或是抛出  DropItem 异常,被丢弃的 item 将不会被之后的 pipeline 组件所处理。

参数 :

item (Item  对象 – 被爬取的 item

spider (Spider  对象 – 爬取该 item spider

2 ) open_spider(spider)

当 spider 被开启时,这个方法被调用。

参数 : spider (Spider  对象 – 被开启的 spider

3 ) close_spider(spider)

当 spider 被关闭时,这个方法被调用

参数 : spider (Spider  对象 – 被关闭的 spider

5、查看提取到的数据

执行结束后,查看  scraped_data.json ,  将看到提取到的 item:

  : 1 由于  selectors  返回 list,  所以值都是以 list 存储的 ( 除了  url  是直接赋值之外 )

2   Item Loaders   可以 保存单个数据或者对数据执行额外的处理

 

 




About Me

........................................................................................................................

● 本文作者:小麦苗,部分内容整理自网络,若有侵权请联系小麦苗删除

● 本文在itpub( http://blog.itpub.net/26736162 )、博客园( http://www.cnblogs.com/lhrbest )和个人weixin公众号( xiaomaimiaolhr )上有同步更新

● 本文itpub地址: http://blog.itpub.net/26736162

● 本文博客园地址: http://www.cnblogs.com/lhrbest

● 本文pdf版、个人简介及小麦苗云盘地址: http://blog.itpub.net/26736162/viewspace-1624453/

● 数据库笔试面试题库及解答: http://blog.itpub.net/26736162/viewspace-2134706/

● DBA宝典今日头条号地址: http://www.toutiao.com/c/user/6401772890/#mid=1564638659405826

........................................................................................................................

● QQ群号: 230161599 (满) 、618766405

● weixin群:可加我weixin,我拉大家进群,非诚勿扰

● 联系我请加QQ好友 646634621 ,注明添加缘由

● 于 2019-05-01 06:00 ~ 2019-05-30 24:00 在魔都完成

● 最新修改时间:2019-05-01 06:00 ~ 2019-05-30 24:00

● 文章内容来源于小麦苗的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解

● 版权所有,欢迎分享本文,转载请保留出处

........................................................................................................................

小麦苗的微店 : https://weidian.com/s/793741433?wfr=c&ifr=shopdetail

小麦苗出版的数据库类丛书 : http://blog.itpub.net/26736162/viewspace-2142121/

小麦苗OCP、OCM、高可用网络班 : http://blog.itpub.net/26736162/viewspace-2148098/

小麦苗腾讯课堂主页 : https://lhr.ke.qq.com/

........................................................................................................................

使用 weixin客户端 扫描下面的二维码来关注小麦苗的weixin公众号( xiaomaimiaolhr )及QQ群(DBA宝典)、添加小麦苗weixin, 学习最实用的数据库技术。

........................................................................................................................

欢迎与我联系

 

 



来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26736162/viewspace-2644258/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/26736162/viewspace-2644258/

你可能感兴趣的:(python,数据库,json)