Python Scrapy框架:数据爬取全流程

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:nanyc

Scrapy的下载

在终端中输入代码'pip3 install scrapy'。

Python Scrapy框架:数据爬取全流程_第1张图片

 

创建Scrapy项目

假设你希望将项目保存至桌面名为Python的文件夹中。可以在终端中输入'cd ',并将Python文件夹拖拽至其后。换行后,继续输入'scrapy startproject ScrapyProject',此处的ScrapyProject为该项目的名字,可根据情况自行定义。

Python Scrapy框架:数据爬取全流程

 

定义items数据

Scrapy项目创建成功后,我们可以在其所在的文件夹里看到spiders,pipelines.py,middlewares.py,settings.py等一系列文件。我们需要做的是在其中找到items.py,并对其进行修改。此处的重点在于定义所需数据的属性,其中主要会使用到scrapy.Field()。

Python Scrapy框架:数据爬取全流程_第2张图片

 

创建爬虫文件

同样在ScrapyProject文件夹内,找到spiders文件夹,并在内创建一个新的爬虫文件,如下图的book.py。(需要与_pychache_及_init_文件同级。)

Python Scrapy框架:数据爬取全流程_第3张图片

 

编辑爬虫文件

此处的爬虫文件为整个Scrapy项目的核心,数据的解析与提取都是在这一步进行的。

Python Scrapy框架:数据爬取全流程_第4张图片

 

运行Scrapy程序

在ScrapyProject文件夹内,找到settings.py文档,并更改好user_agent相关信息。之后再在终端输入代码scrapy crawl book即可。(book为此爬虫的名字。)

注:上述内容皆为Mac环境下的操作。

PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

 

可以免费领取源码、项目实战视频、PDF文件等

Python Scrapy框架:数据爬取全流程

你可能感兴趣的:(Python Scrapy框架:数据爬取全流程)