=========版权所有,如需转载,请联系作者=========
长文预警:本文5000字,各位看官可挑选感兴趣的章节查看,全部读完体验更佳哦
这份报告是我正好在一年前(2018.6)写的,基于2018年6月成都地区的拉勾数据进行的挖掘和分析,一年过去了,可以脱敏发出来了,正好给大家做个求职的参考(大家可以与拉勾目前的招聘数据进行对比,从而从时间维度分析一波趋势)。
完整版的报告放在我的公号(dengshatongxue)里了,大家后台回复001可下载。
本文将为你解答:
- 想搞大数据,该进入哪个行业?-->各行业的大数据人才需求情况
- 想搞大数据,该选哪个岗位?-->大数据的哪种职位更抢手?各职位的门槛和吸引力如何?各职位的要求共性是什么?哪些职位的老司机更吃香?
- 你的薪资拖行业后腿了么?
- 彩蛋:人才价格计算器(附源码)
注,以下分析均基于2018年6月的拉钩数据
01 数据说明
我知道大家都想直接看结论,但作为数据分析师的我还是忍不住想要先说明数据结构,毕竟了解源头才能更理性地看待分析结果嘛。
本次分析的数据来自拉勾,按照职位关键字,在拉勾网爬取的截至2018年6月的成都地区相关职位信息,清洗去重有效数据2398条,包含以下字段:
No. | 字段 | 字段意义 | 处理方法 |
---|---|---|---|
1 | company | 公司名称 | / |
2 | industry | 公司所属行业 | 字段格式化处理industry_format |
3 | stage | 公司阶段 | / |
4 | companysize | 公司规模 | 上下限均值字段 |
5 | search_zw | 职位搜索关键词 | 字段格式化处理classified_zw |
6 | company_zw | 招聘信息职位 | / |
7 | salary | 月薪范围 | 上下限均值字段 |
8 | workyear | 工作年限要求 | 上下限均值字段 |
9 | degree | 学历要求 | 大专-1,本科-2,硕士-3,不限-0 |
10 | positionid | 职位编号 | 用于去重 |
11 | content | 职位描述 |
由于仅爬取了拉勾数据,数据样本较小,因此分析结果可能不够全面客观,同时会影响人才价格计算器预测的准确性,不过由于拉勾是目前最大的互联网招聘平台,用此数据洞察大体趋势足矣。若后期有必要,可以从猎聘、boss直聘等招聘网站拓展数据源。
02 想搞大数据,该进入哪个行业?
我们先来看看,哪些行业对于大数据岗位需求较大,
行业 | 发布职位数 |
---|---|
移动互联网 | 1319 |
电子商务 | 221 |
金融 | 180 |
企业服务 | 133 |
数据服务 | 116 |
信息安全 | 80 |
其他 | 64 |
教育 | 53 |
医疗健康 | 49 |
游戏 | 45 |
硬件 | 31 |
广告营销 | 25 |
O2O | 23 |
旅游 | 16 |
生活服务 | 16 |
社交网络 | 14 |
文化娱乐 | 6 |
招聘 | 1 |
可以鲜明地看到,移动互联网、电子商务、金融行业对于大数据岗位的诉求远高于其他行业,其中移动互联网远超第二名,移动互联网多对应手机应用,这类行业对于数据仓库、前端、算法、推荐系统等技术的需求较大。从18年的市场来看,电商大数据、金融大数据(Fin-tech)的发展较其他行业早,资本也较多的投入了这两个行业,不过目前来看(19年),教育+大数据也开始升温。
让我们继续下沉,看看各行业对于大数据岗位的需求情况,
金融、电商行业对于分析师的招聘需求较大,这两个行业更注重数据分析后产出的信息对电商、金融行业的指导作用,可能将偏技术的工作外包给数据服务等第三方公司,让我们看看是不是这样,
结果比较吻合我们刚才的假设,数据服务行业更注重技术,招聘需求集中在java、前端、算法、挖掘等技术性岗位。
再来看看广告营销行业的情况,
与预想的不同,广告营销行业的算法工程师需求最大,对于数据分析师的需求量反而很小,该行业可能对应推荐算法、精准营销有强烈的需求。
03 想搞大数据,该选哪个岗位?
先来整体看看,大数据行业需要哪类人才,java、前端、数据分析师岗位的需求是最大的。
职位 | 发布职位数 |
---|---|
java工程师 | 1033 |
前端 | 803 |
数据分析师 | 159 |
算法工程师 | 115 |
产品运营 | 68 |
测试工程师 | 64 |
产品经理 | 54 |
数据挖掘 | 36 |
建模工程师 | 22 |
爬虫工程师 | 25 |
产业研究员 | 19 |
3.1 职位门槛和吸引力
如何衡量一个职位的门槛有多高,一个职位的吸引力有多高呢? 搞一个门槛指数和吸引力指数如何。
- 门槛指数:某职位的学历分布比例、工作年限要求分布比例的加权求和表示该职位门槛,衡量入职该职位的难易程度,公式如下,
- 吸引力指数:某职位提供薪水比例加权除以该职位门槛指数,衡量该职位对求职者的吸引力,公式如下,
据此,我们对比以下数据分析师、数据挖掘、算法工程师这三个比较热门的职位门槛和吸引力情况,
可以看到,数据分析师门槛最低,数据挖掘门槛高于算法(这里存疑,因为本次数据中数据挖掘职位数量较少,门槛指数参考性较低,实际可能是算法工程师门槛更高);结合薪资来看,数据挖掘岗位的吸引力最大,其次是算法工程师。
3.2 哪些职位的老司机更吃香
我们知道,随着工作年限的增长,人才薪水也会增加,但是不同岗位,薪水增长速度是不一样的,哪个岗位的老司机更加吃香呢?
下面我们根据前述岗位的门槛、天花板,选取几个有代表性的岗位进行分析:数据挖掘、数据分析师、算法工程师,看看各个职位的“老司机吃香指数”。
先从整体看看这个趋势:随着工作年限的增长,薪资呈类指数增长的态势。
下面我们深入到各职位看看薪资增长态势,
可以看到,
数据挖掘,起薪较高,前3年属于一个经验积累阶段,此阶段的薪水变化不大,说明人才市场对于0-3年经验的数据挖掘更偏向于一视同仁,其中1-3年工作经验的低薪水较0经验低薪水普遍向上提升3k左右,0经验的招聘需求中可能有实习岗位的影响。随着工作经验的增加,经验>3年后人才价格有一个大幅增长,5-10年的经验薪水中位数可达28k左右,但此岗位是一个新兴岗位,需求量巨大但大学教育的人才输送尚未到达,社招转岗人才较多,因此造就了此岗位老司机的高薪水;
算法工程师,1年及以下的职位多数属于实习职位,因此薪资较低,而正式工作岗位(>1年工作经验)的起薪高(门槛高),并且随着经验增加,薪水增长较快,经验超过3年后的薪水涨幅超过数据挖掘岗位,因为算法对于数学、统计学、编程等知识要求更高,一般都是科班出身的高素质人才,成长空间更大;
数据分析师,起薪较低(门槛低),3年以下的经验薪水都较低,数据分析岗位更偏重于工具的使用以及按照分析模板输出报告等,对于独立创新性分析能力并不像产业研究员那样高,随着经验增加,薪水增长较慢,5-10年的经验并不一定比3-5年吃香,天花板较低。
刚才是直观的分析,下面我们定量分析一波
定义老司机吃香指数,衡量各岗位在各工作年限要求下月薪中位数的变化情况,如下
计算结果如下,
可以看到,java工程师中的老司机最吃香,吃香指数达26.9,高出第二名算法工程师8个点,该行业较其他行业起步早,已经渗透到技术的方方面面;算法工程师中的老司机吃香指数第二,该职位对理论基础要求较高,高级人才需要结合实践、时间积累才能培养出来,因此老司机抢手;测试工程师天花板较低,老司机价值不大,员工可在短时间内积累足够的经验胜任该职位,因此老司机价值不如其他行业大。
3.3 我能胜任这个职位么?
下面我们进一步分析几个热门职位的岗位要求,处理过程可以参考这篇文章,
算法攻城狮
算法工程师能力要求(左图)主要集中在模型、数学、编程等偏理论性的能力上;技能要求(右图)主要集中在Matlab、Hadoop、Java、Python等偏数学统计、数据库、建模等方面的软件或语言上。
数据挖掘工
数据挖掘能力要求(左图)主要集中在建模、聚类、分类、统计、回归、文本处理、标签等偏实际应用的方面;技能要求(右图)主要集中在Python、SQL、SAS等偏挖掘、统计的工具上,对于Hadoop等数据库相关的技能要求没有算法工程师那么多。
数据分析狮
数据分析师能力要求(左图)主要集中在行业分析、报表统计、报告专项等方面,要求具有较高的业务思维和对行业的深刻理解;技能要求(右图)主要集中在Excel、SQL、PPT等偏展示性的工具上,对于python等技能的要求没有数据挖掘多。
Java攻城狮
Java工程师能力要求(左图)主要集中在编程、架构设计、数据库、分布式等方面;技能要求(右图)主要集中在Java、Spring、Linux、Oracle、HTML等方面,更加偏向于底层语言。
前端攻城狮
前端能力要求(左图)主要集中在可视化、网页、浏览器、工程化等方面;技能要求(右图)主要集中在CSS、Web、UI、HTML、Javascript等方面,与Java工程师的技能要求差异明显。
04 你的薪资拖后腿了么?
接着,我们来看看薪资统计情况,
你的薪资拖行业后腿了么?
广告营销行业的月薪中位数最高,金融、电商行业的月薪均值较高,由于数据分析对于这些行业有较强的指导作用,能够产出较大价值(如广告营销+大数据=增长黑客/数字营销、金融+大数据=Fin-tech金融科技)
广告营销的低薪水普遍高于其他行业,入职门槛较其他行业高(高薪水意味着高要求),并且有很大的增长空间,大部分广告营销岗位集中在高薪水范围
移动互联网、电商、金融行业的薪水有极高值出现,说明成都地区对于这些行业有高端职位提供,也说明这几个行业目前与大数据磨合比较成熟,有一定的商业模式,能够提供高薪水
你的薪资拖职位后腿了么?
数据分析师、建模工程师、爬虫工程师、测试工程师、产品运营的月薪整体分布较低(上下四分位数),入职门槛较低(下四分位数),天花板也不高(上四分位数),对于建模工程师的低薪水有疑问,于是下探数据发现建模工程师的职位描述偏重于单环节的运用模型、整理汇总等工作,并非复合型人才,因此认为数据合理,这些较低薪水的岗位描述以单技能、或者技术含量不高(没有差异性)的工作为主
数据挖掘、产业研究员、算法工程师的薪水中位数偏高,这些岗位以综合性技能、经验积累、高技术含量为主,因此薪水偏高。其中产业研究员的中位数较高,说明大部分产业研究员的市场价格还是很高的,这部分高薪水产业研究员可能要求较高的经验,后续我们下探分析。数据挖掘、算法工程师薪水下四分位数较高,这两个岗位技术含量高,入行门槛高
单维度分析发现java工程师职位数量最多,说明这个职位在成都需求量大,很是火热,但从薪资统计分布来看,薪资主要分布在10-15k之间,有较多高薪水的极值点,该行业较其他行业起步早,java已经渗透到技术的方方面面,行业薪资已经有一个比较确定的范围,对于老经验的人才该职位也能提供较为高的薪水
05 彩蛋:人才价格计算器
你可以用这个计算器,计算你在人才市场卖的了什么价~
根据上述分析,我们知道,人才价格与求职者经验、求职者学历、求职岗位、公司规模密切相关,于是,我们想设计一个计算器,输入上述信息,就可以预测某个人才的市场价格。
整个计算器设计思路如下:
KNN分类器改进版(改进输出为离散值)——认为离输入x最近的k个点对应的月薪均值的均值是x的输出,
- k默认为 训练样本数/100+1
- 距离度量为欧氏距离
- 决策规则:加权距离最近的k个点的y的均值
- 加权距离:根据不同岗位下,学历、经验、公司规模与薪水的相关系数,计算输入x与训练集x的加权距离
- y的均值:为了改进输出为离散值的问题,认为离输入x最近的k个点对应的月薪均值的均值是x的输出
输入输出
输入:求职职位、工作年限、学历、所求职的公司规模
输出:在指定求职职位、求职公司规模、经验和学历的条件下,人才的市场价格(月薪均值)
说明
由于数据集是成都地区大数据相关行业数据,因此本计算器仅对成都地区适用,可以通过增加其他地区(如北京、上海、广州等)的数据来设计不同地域的人才价格计算器(算法原理一样,只是数据集不同而已)
由于数据量有限,特别是细分到不同职位的数量,因此对于数据量较小的职位,计算器的计算结果不准确,可以通过增加样本数量来提高计算的准确性。
不足
没有将职位描述这个信息量丰富的长文本纳入建模
改进:可加入职位描述关键词与求职者能力关键词匹配,影响月薪水平
使用体验
Step1 输入求职职位
Step2 输入求职公司规模
Step3 输入求职者工作年限
Step4 输入求职者学历
Step5 duang~ 得到此人才的市场价格
源码
已上传到github,点击查看
篇幅有限,这里是简化版,完整版的报告放在我的公号(dengshatongxue)里了,大家后台回复001可下载。
感谢观看,以上为基于2018年6月的拉勾数据,仅供参考,如果与现在的数据进行对比,还可以分析出趋势变化,更有意思,抛砖引玉,希望有小伙伴可以继续分析下去~~