皮克啪的铲屎官

【Python实战】手把手超详细教程教你Scrapy爬达盖尔社区，有彩蛋

发出前两篇Python实战的文章之后，有同学和我反映：你的想法很牛逼，可是我就是看不懂你写的是什么，我Python不熟悉，看起来有点吃力。我细细一琢磨，这点是个问题。对于熟悉Python的同学，能够看懂我思路，但是对于那些没有Python基础，或者对Python不熟悉的同学，这样直接扔过来，可能会让他们失望而归。所以，这回我弄了一期手把手的实战教程，同时，在文章中遇到的知识点，还会有提供链接。完全对新手有好。

在前两篇Python实战「用代码来访问1024网站」和「用Scrapy编写“1024网站种子吞噬爬虫”」收到了大家的一致好评，可能文章写得比较匆忙，有些术语可能对于Python的初级玩家不是很好理解。所以，我特别准备了一下，用超级详细的解说，细化到每一步，提供查询链接等方法，为Python初级玩家，Python小白和对Scrapy框架不熟悉的同学，的制作了这篇手把手Python实战教程：用Scrapy爬取下载达盖尔社区的资源。

好了，废话不多说，学习代码就是要学以致用的。不能写了一遍代码就让代码吃灰。下面就跟我一起来搞吧。

小草网站是个好网站，我们这次实战的结果，是要把“达盖尔旗帜”里面的帖子爬取下来，将帖子的图片保存到本地，同时将帖子的一些相关信息，写入到本地的MongoDB中。这么乍一听，感觉我们做的事情好像挺多的，别慌，我带你慢慢的一步一步来搞起，问题不是很大。

手把手 Step By Stefp

Scrapy可以通过pip来安装:

$ pip install scrapy

接下来，我们去事先建好的工程目录里面，创建Scrapy的项目。这里，我们先看一下Scrapy的命令行怎么用，输入$ scray -help出来

看到，创建scrapy的工程的命令是$ scrapy startproject 创建完的结果如下：

OK，这个时候，我们的目录内容变成了如下结构：

下一步就是创建我们的爬虫，还是依靠Scrapy本身自带的命令来创建。输入Scrapy自带四种爬虫模板：basic，crawl，csvfeed和xmlfeed四种。我们这里选择basic。

$ scrapy genspider --template=basic superspider bc.ghuws.men

创建成功，会出现以下提示：

这时候我们的工程目录就变成了这个样子：

看到我们的工程里面多了一个spiders文件夹，里面有一个superspider.py文件，这个就是我们这次程序的主角。我们来看，这个可爱的小虫子刚生下来是长这个样子的：

这里呢，就简单说一下：
- name - 是咱们的爬虫名字，这个主要是在运行爬虫的时候会用到。
- allowed_domains - 是在scrapy自带的OffsiteMiddleware中用到的。Scrapy默认会开启OffsiteMiddleware插件，不在此允许范围内的域名就会被过滤，而不会进行爬取。
- start_urls - 爬虫开始爬取的url。
- parse()方法 - 这个就是处理请求结果的。我们具体的爬虫逻辑大部分就是在这里写。

好了，废话不多说，既然start_urls是用来做爬虫开始爬取的第一个url，那么我们就应该把这里面的数值换成达盖尔社区的地址，然后我们看一下在parse()里面返回的值是什么。运行方法，就是输入$ scrapy crawl superspider指令即可：

我们看到，这个response是一个HtmlResponse类，它里面的text属性，里面的字符串就是网页的html文件。OK，这一步结束之后，我们下一步就想办法怎样能够解析html网页了。Scrapy是提供了html对象的解析的，它有一个selector类，可以解析html，同时，里面还支持xpath语法的查找和css的查找。但是这个个人感觉不是很好用，我推荐用BeautifulSoup4库。安装方法只需要$ pip install beautifulsoup4。我们这里需要用这个来解析html，所以讲BeautifulSoup4导进来，在解析，然后我们就会得到一个beasutifulsoup对象。之后，我们就要在这个对象里面寻找我们需要解析的对象。

目前网页已经解析好了，下一步就是要在html文件中，找到每一个帖子的信息。我们回头来看html文件的源码，可以看到，每一个帖子其实都是在一个tag里面，其实我们需要的东西，就是下图红色框框里面圈的tag。

这里，我们发现，每一个帖子的链接入口，也就是tag是有两个特性，一个是有id值，另一个是有href值。所以，我们要针对soup对象，调用find_all()方法来寻找有特定内容的所有标签。

我们得到了一个 a_list结果，这是一个list对象，长度102。在这些数据中，有些结果是我们不要的，比如000到007位置的这几个数据，他们在网页中对应的是版规之类的帖子信息，和我们想要的东西不一样，所以，在拿到这个a_list数据，我们需要进行一下筛选。

筛选的过程必不可少，筛选的方法有很多种，我们这里就做的简单一点，只选取18年的帖子。为什么会是18年的帖子啊？少年你看，这一列href的值：

第二个数字“1805”，应该就是“年份+月份”。如果不信，则可以跳到比如论坛100页，看到的是16年3月份的帖子，这里面随便检查一个连接的href值，是“1603”。这就印证了我们的想法是正确的。好，按照这个筛选18年的帖子的思路，我们来筛选一下a_list。

看到打印的结果却是是18年的帖子。但是目前的href并不是帖子真正的url。真正的url应该长这个样子：

http://bc.ghuws.men/htm_data/16/1805/3126577.html

所以，我们这里得进行拼接。对比上面的url，我们目前只有后半部分，前半部分其实是社区网站的root url。那么我们在settings.py文件里面添加一个ROOT_URL变量，并将这个变量导入到我们的spider中即可。代码就变成了这样。为了方便，咱们还可以把帖子的id，也就是.html前面的那个数字也摘出来，方便日后使用。