Scrapy框架简介

Scrapy 是一个用 Python 实现的为了爬取网站数据、提取结构性数据的应用框架。
Scrapy 使用Twisted异步网络库来处理网络通讯。
使用 Scrapy 框架可以高效（爬取效率和开发效率）完成网站数据爬取任务。

架构图1

架构图2

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，传递信号、数据等。
Scheduler(调度器): 负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider(爬虫)：它负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler。
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares(下载中间件)：自定义扩展引擎和下载中间的组件。
Spider Middlewares(爬虫中间件)：自定义扩展、操作引擎和爬虫中间通信的功能组件。

代码写好，程序开始运行...

引擎：Hi！Spider, 你要处理哪一个网站？
Spider：老大要我处理xxxx.com。
引擎：你把第一个需要处理的URL给我吧。
Spider：给你，第一个URL是xxxxxxx.com。
引擎：Hi！调度器，我这有request请求你帮我排序入队一下。
调度器：好的，正在处理你等一下。
引擎：Hi！调度器，把你处理好的request请求给我。
调度器：给你，这是我处理好的request。
引擎：Hi！下载器，你按照老大的下载中间件的设置帮我下载一下这个request请求。
下载器：好的！给你，这是下载好的东西。（如果失败：sorry，这个request下载失败了。然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载）
引擎：Hi！Spider，这是下载好的东西，并且已经按照老大的下载中间件处理过了，你自己处理一下。（注意！这儿responses默认是交给parse()这个函数处理的）
Spider：（处理完毕数据之后对于需要跟进的URL） Hi！引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。
引擎：Hi ！管道，我这儿有个item你帮我处理一下；Hi ！调度器，这是需要跟进URL你帮我处理下。然后从第四步开始循环，直到获取完老大需要全部信息。
管道调度器：好的，现在就做！

注意：只有当调度器中不存在任何request了，整个程序才会停止，也就是说，对于下载失败的URL，Scrapy也会重新下载，且会自动去重，所以不会重复下载。

通过‘pip install scrapy’即可安装
如果在windows下，还需要安装‘pypwin32’库
如果在ubuntu下，还需要安装一些第三方库：python-dev、python-pip、libxml2-dev、libxslt1-dev、zlib1g-dev、libffi-dev、libssl-dev。

新建爬虫项目：新建一个项目和爬虫
创建项目：scrapy startproject [项目名]
创建爬虫：进入项目所在路径，然后执行命令：scrapy genspider [爬虫名] [爬虫的域]
注意：项目名和爬虫名不能相同
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容