爬虫系列——使用scrapy爬取伯乐网文章

上一节,我们创建了一个scrapy项目,下面剪短的介绍一下scrapy的结构,并着手编写一个小爬虫!

小爬虫:http://python.jobbole.com/category/guide/的所有分页里面带"爬虫"的系列文章

先来说说scrapy项目的目录结构啦,直接上图:

爬虫系列——使用scrapy爬取伯乐网文章_第1张图片
爬虫项目目录结构图

我的项目名是bolecategory,下面的文件一一介绍一下:

spiders文件夹:这个是专门写爬虫主类的文件夹

categoryspider.py文件就是主要的爬虫类

items.py文件是一个简单的容器,专门用来保存了爬取到得数据,类似我们的实体

middlewares.py文件目前没用到

pipelinies.py文件是对爬取的Item做处理的,比如保存到数据库之类的

settings.py是一系列的配置信息,比如目前使用哪个pipelines啊,默认请求头啊之类的

好了,剪短介绍完毕,下面开始编写我们的爬虫吧!

首先通过页面分析,查找我们要爬取的目标位置:


爬虫系列——使用scrapy爬取伯乐网文章_第2张图片
页面元素查看

页面清晰,就是一个a标签,class属性为archive-title。

categoryspider.py文件编写爬虫类categoryspider继承scrapy.spider,主要逻辑如下:

爬虫系列——使用scrapy爬取伯乐网文章_第3张图片
爬虫主类

好了,下一页轮训调用parse方法,并且只对包含"爬虫"字符串的标题进行爬取,拿到数据后,对数据进行保存吧,保存写到pipelines.py中,代码如下:

爬虫系列——使用scrapy爬取伯乐网文章_第4张图片
保存到mysql

最终使用命令执行爬虫:scrapy runspider bolecategory/spiders/categoryspider.py

查看数据库运行结果:

爬虫系列——使用scrapy爬取伯乐网文章_第5张图片
结果查看

好了,爬虫结束!

你可能感兴趣的:(爬虫系列——使用scrapy爬取伯乐网文章)