90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践

 

今天来介绍一下python中的scrapy框架,看看他是如何来做爬虫的。

架构

在开始动手之前先引入一下架构的知识。这里主要介绍极大组件完成哪些功能,他们是如何写作的。

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第1张图片

 

  • Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
  • Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
  • Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
  • Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器).
  • Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。
  • Downloader Middlewares(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。
  • Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

准备工作

安装scarpy,我这里使用的是mac上安装直接运行

sudo pip install scrapy

我的开发环境用的是pycharm,在preference中选择如下,安装即可。

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第2张图片

 

通过控制台命令建立第一个srcapy项目

scrapy startproject demo01

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第3张图片

 

生成项目以后直接打开,如图所示

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第4张图片

 

建立一个爬虫

这里还是通过命令行来建立爬虫。先进入刚才建立的项目demo01

再运行生成爬虫的例子

scrapy genspider baidu baidu.com

第一个baidu是爬虫的名字,第二个baidu.com是需要爬取的url地址。

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第5张图片

 

此时会生成爬虫对应的文件

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第6张图片

 

先去设置setting文件

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第7张图片

 

把user agent配置起来,就是配置浏览器。这里的ROBOTSTXT文件会定义哪些数据需要爬取,哪些是不让爬取的。我们做测试暂时就不用这个规则文件。

# Obey robots.txt rules
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

设置完毕以后回到爬虫的spiders文件,在解析的位置加上一行代码。

def parse(self, response):
 print(response.text)

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第8张图片

 

测试结果

通过命令行执行命令,查看爬虫结果。

scrapy crawl baidu

这里baidu就是爬虫的名字。查看结果发现返回的百度的html。

如果需要打端点用命令行的方式就不行了,需要建立一个python文件。加入以下的内容。

90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践_第9张图片

 

然后右键运行python文件。同样也可以看到结果。

你可能感兴趣的:(90%程序员都可以掌握,从0开始,其实并不难,scrapy爬虫实践)