在之前的讲述里,爬虫需要不同模块实现不同的功能: 使用 requests 模块进行请求、使用BeautifulSoup模块解析数据等。而在接下来要学习的Scrapy 里,我们不再需要那些复杂的代码,因为它可以把我们之前做的工作进行了一次整合,我们只需要负责完成爬取网站以及爬取内容部分的代码,而其他爬虫需要涉及的功能,比如麻烦的异步,在 Scrapy 框架都可以自动实现。
这张图就是Scrapy的整个结构,可以看出
Scrapy Engine(引擎)是最中心的位置,围绕着它的是引擎的四大职能:
Scheduler(调度器): 主要负责处理引擎发送过来的 requests 对象(即网页请求的相关信息集合,包括
params,data,cookies,request headers… 等),会把请求的 url 以有序的方式排列成队,并等待引擎来提取(功能上类似于 gevent 库的 queue 模块)。
Downloader(下载器): 负责处理引擎发送过来的 requests,进行网页爬取,并将返回的 response(爬取到的内容)交给引擎。它对应的是爬虫流程中的「获取数据」。
Spiders(爬虫): 主要任务是创建 requests 对象和接受引擎发送过来的 response(Downloader 部门爬取到的内容),从中解析并提取出有用的数据。它对应的是爬虫流程「解析数据」和「提取数据」两步。
Item Pipeline(数据管道): 负责存储和处理 Spiders 提取到的有用数据。这个对应的是爬虫流程「存储数据」这一步。
当然,当我们使用scrapy时,这些功能会有机的结合起来,帮助我们高效完成网页的爬取工作:
这是scrapy工作的具体场景。除了我们介绍过的职能,还有两个需要介绍的部分:
Downloader Middlewares(下载中间件): 其工作相当于下载器的助手,比如会提前对引擎发送的诸多 requests 做出处理;
Spider Middlewares(爬虫中间件): 其工作则相当于爬虫的助手,比如会提前接收并处理引擎发送来的
response,过滤掉一些重复无用的东西。
在 Scrapy 爬虫部门里,每个成员都各司其职,互相配合,所以形成了很高效的运行流程。也许大家买没有很理解这套流程,不过也没有关系,只要我们会利用这套流程拿到想要的数据就好,随着学习的深入这套流程会慢慢被我们消化。在使用 Scrapy 的时候。我们不需要去关心爬虫的每个流程。并且 Scrapy 中的网络请求都是默认异步模式,请求和返回都会由引擎去自动分配处理。如果某个请求出现异常,框架也会帮我们做异常处理,跳过这个异常的请求,继续去执行后面的程序。因此,使用 Scrapy 可以省掉很多的时间和工作。
通过上面的讲解,我们对Scrapy多少有了一部分了解。下面我们就来学习如何使用Scrapy简化爬虫代码。
首先,我们需要安装好Scrapy。
想要创建项目,就要先来了解一下电脑的终端。首先按win+r,在命令行输入cmd并按下回车。
我的电脑只有一个c盘,如果小伙伴的电脑中pycharm安装在别的盘如D盘,可以先输入一个d并回车。然后打开我们的pycharm,鼠标移动到左上角这个位置:
可以看到路径。回到我们的终端,刚才显示的是C:\Users\HP>,我们需要按刚查到的位置继续补全路径,输入“cd PycharmProjects”回车,再输入“cd study”并回车:
这样就来到了我们刚刚查到的路径下了。
接下来,我们创建Scrapy项目。输入“ scrapy startproject meal_message ”命令并回车,然后一个Scrapy项目就创建成功了:
meal_message就是新建Scrapy项目的名字,我们在对应的路径也找到了这个项目:
在pycharm中可以直观地查看这个项目的结构:
Scrapy 项目里每个文件都有它对应的具体功能。例如 settings.py 是 Scrapy 里的各种设置、items.py 是用来定义数据的、pipelines.py 是用来处理数据的,它们对应的就是 Scrapy 的结构中的 Item Pipeline(数据管道)。随着我们学习的深入,大家也会越来越了解这些内容。
spiders是放置爬虫的目录。在这个文件夹里创建爬虫文件,我创建一个meal_message的.py文件,后面的大部分代码都需要在这个 文件里编写。
我们需要在这个模块里导入scrapy和Beautiful Soup模块:
import scrapy
from bs4 import Beautiful Soup as bs
导入 scrapy 是待会我们要用创建类的方式写这个爬虫,我们所创建的类将直接继承 scrapy 中的 scrapy.Spider 类,而导入Beautiful Soup模块是因为我们需要解析数据。
这是使用Scrapy框架最关键的一步,如果不修改默认设置,之后的代码写好也不能正常运行,但这一步也很简单,我们先找到meal_message文件下的setting.py文件,然后找到这样一段代码:
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'meal_message (+http://www.yourdomain.com)'(+http://www.yourdomain.com)'
# Obey robots.txt rules
ROBOTSTXT_OBEY = True
我们要把USER _AGENT 的注释取消,然后将其改为:
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4595.0 Safari/537.36'
之前的文章中提到过,这是为了模拟真人访问网页。当然,每台计算机的user_agent都不一样,想知道自己的user_agent可以打开一个网页,复制其任意请求里的Request headers内的值。
又因为 Scrapy 是遵守robots协议的,如果robots协议禁止爬取的内容,Scrapy会默认不去爬取。所以我们还得修改Scrapy中的默认设置:
ROBOTSTXT_OBEY = False
把True改成False就好了。这样 Scrapy 就能不受限制地运行。
修改完成后的样子是:
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4595.0 Safari/537.36
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
这样修改,之后的代码就可以正常运行了
经历了之前的那么多代码书写,相信大家对于怎样爬取内容已经不陌生了,所以我们先从使用Scrapy书写爬虫的另一个关键步骤开始入手:存储数据。
因为我们接下来要爬取的内容是食物名称和其热量,所以要选择怎样的格式存放比较好呢?这里我想到的首先是字典。设置name键对应食物名称,heat键对应热量这样最直观。下面我们来设置一个自定义的python字典:
import scrapy
# 设置自定义字典
class Meal_all(scrapy.Item): # 定义一个类 Meal_all ,它继承自 scrapy.Item
name = scrapy.Field()
heat = scrapy.Field()
# 可以理解成我们把属性name和heat赋值为一种格式,
# 这种格式即是我们所说的自定义字典的键。
# 我们可以通过给这两个属性赋值的方式给自定义字典追加“值”
这样一来,name和heat就被我们设置成了字典的键,我们可以给他们写入值:
import scrapy
class Meal_all(scrapy.Item): # 定义一个类 Meal_all ,它继承自 scrapy.Item
name = scrapy.Field()
heat = scrapy.Field()
# 自定义字典的模拟使用
food=Meal_all()
food['name']='米饭(100g)'
food['heat']='116kcal'
print(food,type(food))
# 输出为{'heat': '116kcal', 'name': '米饭(100g)'}
可以看到,输出的结果很像字典类型,但其不是dict类型;自定义字典内元素是按照键的英文字母顺序进行排序的。
这个自定义字典是存储爬取数据的关键,我们要把这个类设置在meal_message文件下的items.py文件里,方便之后的调用。
注:不要改动该.py文件里原有的内容
接下来开始编写爬虫的核心代码。在 Scrapy 中,每个爬虫的代码结构基本都如下所示:
import scrapy
from bs4 import Beautiful Soup as bs
from ..items import Meal_all
class Meal_message(scrapy.Spider):
name = 'meal_message'
allowed_domains = ['www.boohee.com']
start_urls = ['http://www.boohee.com/food/view_menu?page=1']
def parse(self, response):
yield 爬取内容
下面我们进行以下代码解释。
from ..items import Meal_all
这是让我们可使用items.py文件里的Meal_all类,进而可以构建一个用于储存信息的自定义python字典。
class Meal_message(scrapy.Spider):
这句代码是定义一个爬虫类Meal_message。这个类继承自scrapy.Spider 类。
name = 'meal_message'
name是,这个名字是爬虫的唯一标识。name = 'meal_message’为设置Meal_message的name属性值为meal_message。这是爬虫名字的唯一标识,等会我们启动爬虫的时候,要用到这个名字。
allowed_domains = ['www.boohee.com']
这句代码是定义允许爬虫爬取的网址域名(不需要加 https://)。如果网址的域名不在这个列表里,就会被过滤掉。这个设置很重要,因为需要爬取大量数据时,经常是从一个 url 开始爬取,然后关联爬取更多的网页。但是经常使用浏览器的小伙伴都应该知道,跳转网站时经常会出现一些莫名奇妙的广告。这句代码存在的意义就是过滤掉这些奇怪的东西。
start_urls = ['http://www.boohee.com/food/group/1?page=1']
start_urls 是定义起始网址,爬虫从那个网址开始抓取。在此,allowed_domains 的设定对start_urls 里的网址不会有影响。
def parse(self, response):
这句代码中,parse 是 Scrapy 里默认处理 response 的一个方法。我们自己动手写代码的时候直接照抄就好。
细心的小伙伴们可以发现,我们没有再使用requests.get()了,因为这些过程会在框架内自动被执行。
yield 爬取内容
这是让该方法调用时,返回我们从网页中获取的内容。在某种程度上有点类似于return。但是,它不会结束进程,且能多次返回信息。也就是说,在我们想返回信息的时候都可以使用,不用放在最后,并且可以不断地修改内容,再返回,在修改再返回。如:
yield item
item=....
yield item
如果不使用yield返回数据,那么爬到的数据会没有保存直接丢失。可能我们只能获取最后的一部分内容,也可能不会得到内容。
这就是这个类的大体内容了,接下来我们要继续完善存放待爬取网站和爬取指定内容的代码了:
import scrapy
from bs4 import BeautifulSoup as bs
from ..items import Meal_all
class Meal_message(scrapy.Spider):
name = 'meal_message'
allowed_domains = ['www.boohee.com']
start_urls = []
url = 'http://www.boohee.com/food/{ends}?page={page}'
ends = list(range(1, 5))
ends.append('view_menu')
for end in ends:
for i in range(1, 3):
if end != 'view_menu':
start_urls.append(url.format(ends='group/' + str(end), page=i))
else:
start_urls.append(url.format(ends=str(end), page=i))
def parse(self, response):
con = bs(response.text, 'html.parser')
datas = con.find_all('li', class_='clearfix')
for data in datas:
food = data.find_all('div')[1]
item=Meal_all()
# 实例化,让food可以搭建python字典
item['name'] = food.find('a').text
item['heat'] = food.find('p').text
yield item
print(item,type(item))
上一节,我们已经具体讲述了如何编辑和设置scrapy框架,下面就可以运行这个项目了。
首先明确一下,我们有两种方法可以运行这个项目。首先,可以在命令行中按路径找到之前创建的meal_message项目:
注:我们创建项目时,meal_message文件夹里面还有一个meal_message文件夹,这里找到第一个就可以了,不要打开第二个。
然后输入scrapy crawl meal_message并按回车:
这样我们就看到了爬取内容啦。
当然,我们还有一种运行的方法,那就是在第一个meal_message文件夹里创建一个main.py的文件,然后在这个文件里输入以下内容:
from scrapy import cmdline
# 导入cmdline模块,可以实现控制终端命令行
cmdline.execute(['scrapy', 'crawl', 'meal_message'])
# 用 execute() 方法,输入运行 scrapy 的命令
这样在运行时,就可完成我们想要的内容的爬取了。关于两个同样名称的文件夹可能会让大家有些迷糊,我们可以手动将外面的文件夹重命名,减少误会。
到此,关于scrapy的基本知识就介绍完了。
上文之中我们已经能够使用Scrapy框架进行简单的爬取工作了,接下来就来介绍更多的有关Scrapy模块的应用。首先,我们选择一个爬取对象:职友集。
打开网页之后点开查看完整榜单,可以看到北京的人气公司招聘排名:
随便点击一个进去,查看招聘信息:
初步观察后,暂时把目标确定为:先爬取地区企业人气榜中的四个公司,再接着爬取这些公司的招聘信息;然后爬取到公司名称、职位、工作地点和招聘要求等细节信息。
了解到要爬取什么,就开始工作。在人气公司排名里右击鼠标,点击检查,打开Network并刷新,查看doc栏第一个有响应的请求:
发现公司的信息在这个请求里(自己找比较困难,建议使用Ctrl+f输入关键词查找)。那么我们接下来就可以把网站写入程序了。不过先别着急,因为我们要爬取具体公司的招聘信息,所以不妨再看一看各个不同的公司网址差别。可以点开具体公司进去查看,也可以观察href:
观察发现,不同公司的网址差别仅在于公司的序号。那么我们就可以使用爬虫获取这些序号从而达到跳转网页的功能。
然后我们进入具体的某一个公司,故技重施。发现招聘信息也全都在HTML里。那么我们想要的信息也就可以直接在element栏里去找了。接着,我们寻找找工作比较关注的公司要求和薪资待遇:
相信大家已经能看出来这其中的门道了。获取招聘信息的代码已经可以完成了,那么我们就开始编辑爬虫了。这期间会拓展一些之前没有讲到的内容,小伙伴们要认真看好。
首先,我们找一下刚刚创建的项目,有一个叫jobs的文件夹,里面有obtain文件夹和scarpy.cfg文件(以后可以用这种方式创建不同名的内外层文件)。
我们还是用pycharm找到obtain文件夹,打开item.py文件。因为我们需要保存的信息有公司名称,岗位信息、学历要求,工作经验要求,全职与否以及薪资待遇这几样信息,所以我们需要建立的自定义字典如下:
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class Demand_give(scrapy.Item):
company = scrapy.Field()
# 定义公司名称的数据属性
position = scrapy.Field()
# 定义职位名称的数据属性
detail = scrapy.Field()
# 定义招聘要求的数据属性
address = scrapy.Field()
# 定义工作地点的数据属性
接下来,在spiders文件夹内创建一个.py文件,我将它命名为find_job。然后就是高光时刻啦,我们需要编写代码,这期间会穿插讲解一些之前没提到的知识点:
import scrapy
from bs4 import BeautifulSoup as bs
from ..items import Demand_give
class Find_jobs(scrapy.Spider):
name='getjobinfo'
allow_url=['www.jobui.com']
start_urls=['https://www.jobui.com/rank/company/view/beijing/']
# start_url用于存储企业排行榜的网址。
def parse(self,response): # 这个方法用来获取具体公司网址的保管建部分数据。parse不能拼错!
con=bs(response.text,'html.parser')
# 用BeautifulSoup解析response(start_url存储的网站)
for jump in con.find_all('div',class_="c-company-list"):
href=jump.find('a')['href']
# 获取要跳转网站的关键信息
url='https://www.jobui.com{}jobs/'.format(href)
yield scrapy.Request(url,callback=self.seek)
# 将补充完整的网页信息传给引擎,用scrapy.Request构造request对象
# 这里的callback参数可以设置成调用我们自己的方法即接下来要编写的seek
def seek(self,response): # seek方法可以使用刚刚传给引擎的request对象,这种方法不需要将网站存储到列表。
con=bs(response.text,'html.parser')
news=Demand_give()
informations=con.find('div',id="companyJobsJobList").find_all('div',class_="c-job-list")
for information in informations:
news['company'] = con.find('a', class_="company-banner-name").text
# 获取公司名称
news['position']=information.find('h3').text
# 获取招聘岗位
news['address']=information.find('div',class_="job-desc").find_all('span')[0].text
# 获取工作地点
news['detail']=information.find('div',class_="job-desc").find_all('span')[1].text
# 获取招聘要求
yield news
看到第20行,self.seek是新定义的方法。往requests对象里传入callback=self.seek这个参数后,引擎就能知道response要前往的下一站,是用seek() 方法来解析传入的新参数。
scrapy可以支持把数据存储成 csv 文件或者Excel文件,但实现方式和之前接触过的不一样。
下面先介绍如何将怕渠道的数据储存为.csv文件。这个比较容易实现,我们只需要在settings.py文件里,添加如下的代码即可:
FEED_URI = '%(name)s.csv'
FEED_FORMAT = 'csv'
FEED_EXPORT_ENCODING = 'ansi'
FEED_URI 是导出文件的路径。’%(name)s.csv’ ,就是把 CSV 文件放到与 settings.py 文件同级文件夹内。这个name不能更改,生成的文件是以spiders文件夹下新建的.py文件里定义的爬虫类name属性命名的。
FEED_FORMAT 是导出数据格式,写csv就能得到csv格式。
FEED_EXPORT_ENCODING 是导出文件编码,ansi 是一种在 windows 上的编码格式。
写好了这些以后,我们按照之前讲过的编辑方式设置文件,然运行:
首先关注代输出栏,这里可以看到爬取到的内容符合我们的预期,但也出现了很多错误。这是因为有些IP会被封,请求不到数据进而导致我们无法正常爬取。我们是没办法解决这个问题的,不过可以自行添加异常捕获,过滤掉报错,让输出栏好看一点。
然后看到文件的位置:
这里存储的信息也是符合我们预期的,而且对代码的改动不大,这种方式存储信息确实对新手比较友好~
讲这节之前,先和大家解释一句,之前存储为.csv文件的代码要记得删掉。
还是打开setting.py文件,看到第65行:
#ITEM_PIPELINES = {
# 'meal_message.pipelines.MealMessagePipeline': 300,
#}
先把这三行代码去掉注释,然后看到第27行:
#DOWNLOAD_DELAY = 3
把这个注释去掉,然后将默认参数改小一点。DOWNLOAD_DELAY的意思是下载延迟,这个参数的作用是控制爬虫的速度。一般来说3s太长了,推荐改成0.5s。接下来就可以去编辑 pipelines.py 文件了。需要注意的是,我们依旧要借助 openpyxl 来实现对爬取到的数据进行保存:
import openpyxl
class ObtainPipeline():
# 定义一个ObtainPipeline类,负责处理news
def __init__(self):# 初始化函数 当类实例化时这个方法会自启动
self.wb = openpyxl.Workbook() # 创建工作薄
self.ws = self.wb.active # 定位活动表
self.ws.append(['公司', '职业', '地址', '招聘信息']) # 用append函数往表格添加表头
def process_item(self, news, spider): # process_item是默认的处理news的方法,就像parse是默认处理response的方法
line = [news['company'], news['position'],news['address'],news['detail']]
# 把公司名称、职位名称、工作地点和招聘要求都写成列表的形式,赋值给line
self.ws.append(line)
# 用append函数把公司名称、职位名称、工作地点和招聘要求的数据都添加进表格
return news
# 将news丢回给引擎,如果后面还有这个item需要经过的itempipeline,引擎会自己调度
# close_spider是当爬虫结束运行时,这个方法就会执行
def close_spider(self, spider):
# 保存文件
self.wb.save('JobInfo.xlsx')
# 关闭文件
self.wb.close()