Scrapy开门篇写了一些纯理论知识,这第二篇就要直奔主题了。先来讲讲Scrapy的架构,并从零开始开发一个Scrapy爬虫程序。
本篇文章主要阐述Scrapy架构,理清开发流程,掌握基本操作。
自己动手画架构图一张:
这就是Scrapy的整体架构,看起来流程比较复杂,但其实需要开发者参与的部分不多。这里先介绍一下各个部分。
一个完整的爬虫,开发者需要参与1、2、3部分的开发。甚至最简单的爬虫,只需要开发Spider部分即可。
Scrapy的安装和普通模块相同:
pip3 install scrapy
安装之后,就会多出一个scrapy命令,我们可以使用此命令来新建项目、新建爬虫程序、进入shell交互环境等等。
命令说明如下图:
和普通python项目不同的是,Scrapy需要使用命令行新建项目,然后再导入IDE进行开发。
scrapy startproject [ProjectName]
执行上面命令,新建一个新的Scrapy项目。
从项目结构可以看出,一个Scrapy项目分为四大模块,与架构中各个部分对应。
将项目导入IDE,spiders包用于存放开发的爬虫程序。而爬虫程序的新建也是通过命令行操作。
# domain就是域名,例如百度域名就是www.baidu.com
scrapy genspider [SpiderName] [domin]
在本scrapy项目任何目录下的命令行中执行此命令,都会在spiders下新建一个爬虫程序。
如图,scrapy爬虫程序已经生成,在其中实现解析规则代码即可完成开发。
这里依然以斗罗大陆为例,程序代码如下。
每个Scrapy程序都会有三个模块:
上面说道,start_urls是爬虫程序的入口,那么它是怎么发起请求,并将Res响应传给parse解析?作为一个list类型,是否可以有多个入口url?
每个爬虫程序都继承了Spider类,里面的start_requests方法用来发起请求,并自动将响应传递给parse()。
如图,我们可以看到,此方法遍历了start_urls来发起了请求。那么,我就不想传递给parse()解析,我就想自定义方法,啷个怎么办来?
小事莫慌,我们重写start_requests就好了嘛。
如图,我们自定义了parse_first解析函数,在发起请求时使用callback来指定回调函数,这里记住:函数名一定不要加括号,加括号表示立即执行此函数,不加代表是引用。
修改后的程序输出结果和之前相同。
我们使用yield Request发起一个请求,为什么不用return?因为yield不会立即返回,不会终结方法。这里就涉及到了生成器的问题,有兴趣的可以去研究一下。
Request使用的参数如下顺序排列:
至于cookies、headers参数,我们可以在Request设置,但大多时候都是在下载器middleware中进行设置。
Scrapy爬虫程序的启动主要有两种方式。
第一种就是在scrapy项目目录下的命令行下启动。
scrapy crawl [SpiderName]
这种启动方式的缺点显而易见,就是无法IDE中使用Debug功能,所以这种方式通常用于生产。
我们在开发过程中通常使用第二种启动方式,这也是符合我们常规启动程序的方式。新建一个python程序,引入命令行工具执行爬虫启动命令。
from scrapy.cmdline import execute
if __name__ == "__main__":
execute("scrapy crawl DouLuoDaLu".split(" "))
这样就可以在IDE中启动程序,并使用Debug功能。
我们可以shell交互环境中进行解析代码的调试。
scrapy shell https://v.qq.com/detail/m/m441e3rjq9kwpsc.html
输入命令回车,对斗罗大陆页面发起请求并进入shell环境。
如图所示,在进入shell环境后,自动封装了一些变量,这里我们只关注响应response。
如图,我们在shell交互环境中对网页进行了解析。这样,我们将测试好的解析代码复制到程序中即可,这样提高了开发效率。
输入view(response),敲击回车,将自动在浏览器打开页面。
在样例程序中,请求和响应只在架构图右半边简单地流转,如果想要持久化,还需要定义pipeline等等,而且程序中也只写了一层解析函数,即parse()。
如果在parse中还要进行深度爬取,我们也要在parse中发起请求,并定义新的callback回调函数来进行解析,一直到我们想要的数据页面为止。当然,这些后面都会讲到。
自Scrapy系列写了开篇之后,就搁置了很久。一是最近的确挺忙的,二是Scrapy知识点比较多,一时间不知该从何处写起。不过我还是会继续写下去的,虽然可能更新的有点慢,欢迎小伙伴催更、也希望多多提出宝贵的意见。
95后小程序员,写的都是日常工作中的亲身实践,置身于初学者的角度从0写到1,详细且认真。
文章会在公众号 [入门到放弃之路] 首发,期待你的关注。