爬取boss直聘的南山区数据,并作简单分析

如今数据分析越来越流行的,数据的获取和分析能力,大抵是成了很多职业的基础元技能.因为疫情影响闲在家,于是学了pandas希望能补上缺!此例仅用作学习,爬亦有道!

爬虫部分

因为在没有找到职位的公开数据,只好通过python简单的爬虫来获取相关信息了.

我使用的是requests库来获取数据,使用beatifulsoup来解析页面获得文本信息,使用了pandas来导出scv数据.
boss的数据访问需要cookie才能通过,所以header的定义十分重要,需放上你的cookie信息

header ={
"User-Agent": 
"Cookie":",
"referer":"https://www.zhipin.com/shenzhen/?sid=sem_pz_bdpc_dasou_title",
'Connection': 'close'

特别注意connection 应定义为close以防止开的请求过多而出错
使用get方法就能获取到所有数据了,然后通过beautiful库进行文本解析 树文档遍历便可以获得关键文本,并通过pandas的to_csv方法导出保存为csv方便后续的分析操作

分析部分

说明

通过遍历 "产品助理" ,"产品专员"等初级产品求职会搜索的关键词,去重之后得到了384条数据.本次暂不考虑无法从获得数据中剔除的杂乱数据的影响,如boss中虚假职位,错误填写职位信息等影响因素.因对pandas的操作不够熟练,使用了excel来作为图表统计的工具,因为想要了解的信息相对简单,所以并没有做聚类 ,回归等较复杂的分析.

各行业企业招聘数量

各行业企业招聘数量统计图

从图中可以看到互联网仍然是对产品经理需求最多的行业,其次就是电商以及智能硬件.这里电商较为特别,因为它对产品经理和其它行业不同,在某些电商公司,产品助理的职责是在亚马逊 ,wish等平台进行产品的选品.相对其它行业对职位的要求较低,所以需求量更多.

薪资水平

首先求得最低薪资平均数为 6k 而最高薪资平均数为9.3k,通常求职我们以最低薪资为参考,所以可以认为在深圳产品助理这个职位的平均招聘薪资为6k,而最高是22k,是名为可牛的游戏公司,而最低的1k是一家餐饮公司.具体薪资分布图标如下


薪资分布统计

从上图可以看到最低薪资基本分布在2-6k位.

工资区间

因为求职目标的原因 我主要观测下图中的行业的薪资分布


行业工资分布

可以看到大多公司的工资区间集中在6-10k中,而互联网工资明显高于其它行业,7-15k的工资占比最高.
从数据中我们得到 最低薪资6以上的公司有159家,其中最高工资为22,而大多数互联网的平均薪资为5.78,而智能硬件的平均薪资为6,电子商务的平均薪资为5.5
结论
深圳产品助理平均为6k左右,电子商务对产品助理需求较多,其次就是互联网和智能硬件这些重用户体验的行业,而电子商务平均值5.5k,从作业了解到的大多数电商的产品助理做的是选品为主的工作,需求多,但要求不如其它行业高.而互联网的需求则是以数据分析 文档能力,产品思维为主,而智能硬件公司多会在文档能力 产品能力之外多加一部分技术的要求,从要求的不同可以明确行业薪资高于互联网.但互联网中头部公司的薪资在普遍在8k以上,而智能硬件的头部产品助理在10k以上,可见智能硬件的工资更高,但相应的要求也会更高.

技能要求

通过三百份jd切词之后得到的词云


技能要求

可以看出而数据分析能力,文档能力,以及理解用户,理解需求是对产品的主要要求.其对沟通,负责,团队协助等软实力有一定期望!

你可能感兴趣的:(爬取boss直聘的南山区数据,并作简单分析)