作为一个在找工作的人,最主要的必然是找寻目标公司和目标岗位,但是作为一名数据人,能否用数据分析的思路帮助自己去更好、更快地了解目标公司和目标岗位的特征呢?
答案是肯定可以的,而且数据分析的思路不仅适用于找数据分析的工作,可以说,几乎找任何工作都可以用得到。
首先,收集数据
采集工具:“八爪鱼采集器”。
采集时间:2017年4月11日,21点。
采集方法:
- 打开智联招聘首页,选择全国区域
- 在搜索框中输入“数据分析”,回车进行搜索
- 将网址复制到八爪鱼采集器中,使用单机采集方式,自动跳转页码进行采集。
其他说明:此次采集内容包含公司名称、薪资、工作地点、公司性质、公司规模及经验、学历要求等内容,共有5460条信息。
然后,处理数据
使用八爪鱼采集器可以导出Excel、CSV等格式的文件,为方便后续其他操作,导出为CSV格式的文件。
主要将数据进行以下处理:
- 删除重复数据1426条,得到有效数据4034条。
- 对原数据的字段进行重编码,原始数据中字段均为拼音简称,将其改为汉字。如:将“gsmc”改为“公司名称”
- 根据岗位职责,填充空缺信息,如:岗位职责中明确写明要求本科学历,而“学历”字段中为空,则将空值改为本科。
- 拆分原字段“地点”,原数据中有诸如:北京-大兴区,这样的内容,为统一数据格式,将其分为两个字段:工作地点和具体地点,工作地点仅为市名,具体地点包含区名。
- 新增字段:省份,根据工作地点字段进行匹配省份名称,首都及直辖市均保持原来内容。增加薪资下限、薪资上限,分别表示薪资列中的最小值和最大值。
- 对薪资字段进行修改,原数据内容为“4001-6000”、“1000以下”、“面议”等,将区间分为“薪资下限”和“薪资上限”,面议的内容为空,1000以下,安装0-1000拆分。
- 增加经纬度字段,表示每个工作地点的经纬度。
- 修改经验列,将所有类似于1-3年,3-5年,取最小值。
最终得到:19个字段,4034条数据。
现在,开始分析
我比较感兴趣的是以下几个内容:
哪些公司在招聘?
哪些地方需求高?
招聘要求高不高?
薪资待遇好不好?
壹 / 哪些公司在招聘?
1、公司名称
在4000多条信息中,共有1764个公司在招聘,版面有限,不能将这些公司全部放上来,所以选取了招聘数量最多的前20名。
前三名的数量实在太过庞大,有必要看一下具体的数值。
公司名 | 招聘数量 |
---|---|
北京万向通汇投资有限公司 | 720 |
北京万向联合控股集团有限公司 | 316 |
北京万向通汇投资管理有限公司 | 128 |
小计 | 1164 |
果然,前三名就占了几乎四分之一。排除前三名后,再看一下整体情况及前20名的公司。
2、公司性质
可以看出,股份制和民营企业需求最大,
3、公司规模
公司规模按照人数来划分,从图形来看,基本上满足正态分布。
不过也可以看得出来,大部分公司人数都是蛮多的。可以想象,小规模的公司,需求都不会太高。
贰 / 哪些地方需求高?
底下的几张地图,用的是Tableau绘制的,毕竟Tableau的交互比较方便。首先来看看各省的招聘数量。
可以看出,北京作为排头兵,领先不止一点点,其次就是长三角和珠三角,在招聘需求上,一线城市的缺口还是很多的。
当然,招聘需求多只是一方面,给出的待遇如何呢?
不可思议的是薪资最高的居然是西藏。
原因很简单,西藏的招聘信息只有一条,给出的薪资待遇是10001-15000元,平均一下之后呢,就是12500.5元。
上海的平均薪资是10406元,北京是9335元,除此之外的江苏、广东也不过8849和8145元。浙江在这轮比拼中稍逊一筹,只有6156。
第四名往后的分别是:湖北(6743.64)、海南(6667)、内蒙古(6500.4)、安徽(6388.23)、广西(6333.5)、贵州(6285.93)、四川(6220.43)。
看完了以省为单位的分析,再细分到城市,看一看具体是哪些城市对于数据分析的招聘需求大,也看一看哪些城市比较土豪。
可以看出,不管是需求还是薪资,北京、长三角、珠三角一直霸占三强宝座。
当然,内陆的需求主要集中在省会城市,比如,西安、成都、郑州、合肥、济南,这些在地图上的数据都很明显。
所以,大数据蓬勃发展的时代,各个地方的需求和待遇都不错。当然,想要更好一点的机会和大于,还是优先考虑北京、长、珠三角。
叁 / 招聘要求高不高?
这一方面的维度不好把握,所以主要从学历要求和工作经验来进行分析。
学历要求
简单统计一下数量之后,发现要求并不是很高。其中有个类别是空白,这个可以当做不限来看待。因此,招聘需求主要集中在大专、不限和本科。
工作经验
工作经验中,有些数据是这样的:1-3年,3-5年,因此,为了统一口径,所有类似的数据都在处理数据时进行了取最小值。所以,工作经验指代的是,最低的工作经验要求。
可以看到,最明显的就是还是有空白数据,完全搞不懂这些公司是怎么想的,难倒没有要求吗?
除此之外,1年和3年的工作经验最为吃香。
毕竟大数据发展并没有很长时间,三年工作经验可以当做中流砥柱,带来的效益很明显;而一年工作经验的人,最起码可以不经培训就上手开始工作,人力成本大大降低。
所以,无论是学历还是工作经验,要求上来说都不是很高。这对于找工作的人来说,无疑是一个好消息。
肆 / 薪资待遇好不好?
本部分内容比较多,从以下几个方面进行分析:
1. 简述
2. 公司
3. 地点
4. 要求
简述
因源数据都是薪资区间,形式诸如:1000元以下,4001-6000元。因此,新增了三列,分别放置:最低薪资,最高薪资,及平均薪资。
以下主要按照平均薪资作为衡量指标。
首先看看平均薪资的几个指标:
最小值:500
25%分位数:5000
中位数:7000
均值:8373
75%分位数:9000
最大值:125000
还有59个缺失值,缺失值的数据呢,就表示薪资为面议。
可以看出,5001-10000元的区间最多,2090个,几乎占了一半;其次就是0-5000,有点惨的感觉。而且随着薪资的上涨,数量越来越少,到最后,就少得可怜了。
尤其从10000开始,似乎是断崖式的坠落,15000以上,只有159个。
高薪不是没有,只是太少了。
公司
1. 公司规模
离群值影响太大,图表无法完全展示信息,因此,将40000以上定为离群值,进行剔除。
先看中位数,规模在10000人以上的公司,反而给的最少,20人以下的公司反而给的最多。
再看四分位距,大部分在5000以内,而且多数分布在5000至10000这个区间内。
2. 公司性质
还是一样,由于离群值的影响,无法展示全部的信息,所以,还是一样筛选40000以下的数据。
前面提到过,股份制企业跟民营企业的需求量最大,现在从薪资方面来看,不仅需求量大,薪资的分布区间也很大,高的特别高,低的特别低。
从中位数来看的话,还是国企和事业单位领先一点。大数据时代可能还是会有“铁饭碗”。
地点
已经画过了两张不同地区的薪资水平情况分布图,所以这里就不做仔细阐述,先把之前的两张图放上来。
以上两张是用Tableau做的,为了好(zhuang)看(bi),特意用Excel的三维地图做了一个三维的热力图,如下:
要求
同样,此处还是分为学历和工作经验。
除去不限和空白的数据,博士学历的几项指标都比较高,其次就是硕士。
当然也可以看得到,本科和大专的部分离群值也比较高,甚至高过博士和硕士的最大值,说明学历并不完全是衡量薪资水平的标准,只能说随着学历的上升,薪资也有一定的提高。
由上图可以看出,薪资的多寡,在一定程度上与工作经验确实有关系。同时可以看出,3年和5年的区间跨度最大。所以,经验的累加并不完全能给我们带来薪资的增长,更重要的,还是得看实力。
最后,分享一下源数据和源代码。
链接: http://pan.baidu.com/s/1qXGMP20
密码: kxsb
联系小鑫:[email protected]