爬取拉钩网技术类全部岗位后的数据分析

前段时间,突然对编程产生了兴趣,更确切地说,是对利用计算机快速获取信息及通过分析信息得到一些宏观或细节上的基本面来协助决策的这种手段,产生了浓厚兴趣。经过一番搜索,选择以网络爬虫(crawler/spider)来开始这段学习旅程。经过这一两个月的学习,算是掌握了一些小技能,在开始正文前,简单罗列一下这些技能,算是一次小结:

Python的基础知识,包括list,dict,tuple,循环,条件,异常捕获等等。

爬虫方面:Python中常用的一些库,包括requests,BeautifulSoup,pyquery等。还有正则,XPATH等等有助于解析网页的工具。

网络知识:http协议,HTML,CSS等。

数据存储:MySQL, MongoDB等。包括数据清洗的一些SQL语句。

数据分析:Tableau。尚在学习的numpy,pandas,matplotlib等。

以下是对拉勾网岗位的分析,是这段时间对爬虫和数据可视化学习后的一次总结和输出。具体过程如下,爬取了拉勾网分类中的大类-技术下的所有岗位信息(见下图),并存储在MySQL数据库中。初始数据为8.8万条,之后根据拉勾网自身的岗位id进行去重,保留自增ID较小的,最终用于处理的数据样本为6.5万条。还有包括薪酬的格式化处理,如将8k-15k分组为最低薪酬8和最高薪酬15,单位k(千)省略,并添加了两组的平均数-平均薪酬值(11.5)。数据清洗完成后,通过Tableau进行可视化分析,得到了一些有意思的结果,依据这些结果可以为某些决策提供参考。

爬取拉钩网技术类全部岗位后的数据分析_第1张图片

一、选择在哪个城市工作?

1.基于城市区分的岗位数量及薪酬

爬取拉钩网技术类全部岗位后的数据分析_第2张图片

横坐标为平均薪酬,单位为k/月,柱形图上数字为岗位数量。

可以看到,安康(陕西省)的薪酬最高,高达95万/月,但岗位仅1个,而追溯数据发现,是寻求地区技术合伙人,应该是在找有梦想一起创业的高端人才。但仔细一看公司名却是绵阳市***,这又是什么鬼?!

显然这种数据基本没参考意义,将筛选条件设置为城市岗位大于50后,得到了更有分析意义的数据,并通过地图模式展示出来。显然,北上深在岗位数量上遥遥领先,处于第一梯队,而第二梯队中,杭州、广州及算尾巴的成都也有着较多的岗位;武汉、南京、长沙、厦门等岗位量均超过500,第三梯队中的城市主要位于中国腹部及沿海地区,而东北部及西南部城市则明显岗位数量较少。根据此粗略的岗位显示,还是能大致看出IT行业在全国各区域的发展情况。

爬取拉钩网技术类全部岗位后的数据分析_第3张图片

接下来,我们来看看哪个城市薪水更高。(筛选条件为岗位数大于100的城市)

爬取拉钩网技术类全部岗位后的数据分析_第4张图片

北京以23k的平均月薪远超同侪!虽然帝都的房价不友好,但工资够友好(特别对于IT人士),这是高房价与雾霾也赶不走北漂的原因之一。上海杭州深圳的平均月薪接近,可以想象,杭州程序猿在这波房价没涨上去之前,幸福感简直爆棚!这应该感谢阿里爸爸,当然,也有可能是阿里拉高了整体水平。此外,就房价来说,长沙幸福感也较高,即使17年房价拉涨了一波,均价也没有过万,看看工资,相当于一个月工资还能买超过一平的房子。上图中这种性价比也就长沙和重庆了。

2.基于城市区分的工作年限及学历的薪酬分析。

2016以来,北上深的准入难度越来越高,各大二线城市间则开始了如火如荼的“抢人大战”,给出了各种优惠政策来吸引人才工作和落户,而这种友好度除了房价之外,更多体现于薪酬方面,让我们来看看IT技术这方面的数据。

爬取拉钩网技术类全部岗位后的数据分析_第5张图片

横坐标为不同城市间不限, 1-3年, 3-5年, 5-10年 与10年以上。纵坐标为平均年薪值(单位为千元/月),折线上标注的数字,上边整数为职位数,下边带小数点的为平均月薪值。城市筛选规则为职位数大于100。

上图是不同城市间对于工作年限给出的待遇,与预想一致,工作经验与待遇呈正比增长,但有意思的是,无工作经验的反而比1-3年经验的平均工资更高,说明许多公司想招一些属于未经雕琢的璞玉,或者说大多公司的业务容易上手,有老手带,反而更看重应聘者的基础。而在行业中浸淫3-5年及以上,工资就开始呈阶梯上涨了。但二线城市要求10年以上经验的岗位稀少。

再来看看对应聘者学历的需求与待遇。

爬取拉钩网技术类全部岗位后的数据分析_第6张图片

同样与预期相符,待遇与学历呈正比。必须看到的一点是,需求为本科学历的岗位数量最多,其次为大专,说明至少就目前来看,大多数IT相关公司还是以实际能力论英雄的。无论北上深还是其余二线城市,目前对于博士学历的需求量都不算多,查看详细数据发现,需求博士的主要是算法工程师以及现在最热的AI相关领域。

爬取拉钩网技术类全部岗位后的数据分析_第7张图片

以上,除了工资之外,最重要的还是要追求技术上和职业发展的进步,而岗位数量多、工资高的城市也意味着人才更多,学习和进步的空间越大。所以关于工作城市的选择,需要根据自身来判断,追求拼搏的还是需要去一线;考虑房价及别的因素的话,选择二线也能过上不错的生活。下图是上面分析的热点城市中,月薪与房价的比值。(房价为2018年2月二手房均价,数据来源安居客。)

爬取拉钩网技术类全部岗位后的数据分析_第8张图片

单纯以房价为生活成本计算的话,月薪与房价比值越高,幸福感越强。该值大于1的城市除了之前提到的重庆、长沙外,还有无锡和西安,其中重庆比值高达1.367,并且我印象中重庆的房子好像是无公摊面积的,可以说是非常理想了,基本干个几年就可以买套不错的房子了。而苏州厦门该值均低于0.3,如果不是应聘者家乡或有非常好的机会,基本可以不用考虑了。

综上,关于城市的选择,基于以上分析,我提出两种排名:

大牛拼搏型:北京>杭州>上海>=深圳>广州

居家安稳型:成都>重庆>=西安>长沙>=武汉

二、选择从事什么行业?

爬取拉钩网技术类全部岗位后的数据分析_第9张图片

行业领域方面,现在依然是移动互联网的天下,毕竟从4G普及以来,手机更主要的成为了人们联通世界的工具。而薪酬最高的领域为O2O,根据岗位数量和薪酬的综合情况看来,互联网金融具备较高的可选优先度,但不知是否对于应聘者有专业背景的要求。此外,电子商务、企业服务和数据服务的前景也不错,毕竟现在强调大数据,每个企业都想建立自己的数据库。

爬取拉钩网技术类全部岗位后的数据分析_第10张图片

更具体来说,前端的岗位需求较多,对于一些新手来说,学习曲线也比较友好,想转IT的朋友可以优先考虑。而看IOS和安卓这一对的数据,并非像很多人说的,搞IOS的已经没前途了,安卓仅在岗位数量上稍胜一筹,当然,这是在仅看目前数据说话,行业更长远的发展前途还是需要多听听专业人士的分析。平均月薪高于2.6万的岗位,都是AI相关的,特别是近年大火的机器学习领域,当然这些岗位针对的都是具备专业背景的应聘者,准入难度颇高,单纯靠调调包就想拿高薪,无疑是比较困难的,特别过几年大量科班学生毕业后,业余选手的处境会更为艰难,所以也不建议眼馋高薪就一门心思的往里头跳。我觉得就AI来说,搞交叉领域,即能和自己行当有所结合才是更好的选择。此外,搞Python的岗位及薪酬也不错,就算不搞专业,敲几行代码就能提升工作效率,感觉也是非常棒的。

再来看看需求数量最多的高端职位,下图是拉勾网分的一个小类,一看就很高,薪水也高,门槛也高。总之高端职位一切都是"高"。

下面再看看不同城市中领域的薪酬。这里面发现个有意思的现象,在北京,搞生活服务类领域的平均月薪仅为1.39万,远低于其余领域,但在武汉月薪却高达1.84万,这难道是因为在武汉人们更注重休闲?总之,如果是搞生活服务领域的朋友,北京可能并非是最好的选择。如上文所说,不管在哪个城市,目前最赚钱的领域还是O2O。

爬取拉钩网技术类全部岗位后的数据分析_第11张图片

综上,对于行业领域的选择,如果有专业背景,投身AI领域是最好的选择,不管从前景还是薪水上来说。而新手要转IT,最适合的还是前端,岗位多且薪水也可观。语言方面,JAVA和Python都是不错的选择,学习曲线平滑且市场需求大。至于C, C++等难度高一些的语言可等到入门后,有需求时的再进一步学习。

三、选择什么公司?

关于公司的等级类别,主要从发展阶段分为天使轮,ABCD轮,上市公司和未融资。一般说来,公司等级层次越高财力就越雄厚,对人员待遇越优厚,岗位也越多。我们来看看是不是这样。

爬取拉钩网技术类全部岗位后的数据分析_第12张图片

数据结果与预计还是有所差别,平均薪酬确实是随着公司等级逐渐升高的,但上市公司的平均薪酬却位于A轮与B轮公司之间,D轮公司薪水最高。出现这种情况,可能是因为公司上市后大量新加入的员工享受到的权益要远低于老员工,所以拉低了平均值(这点也可以从上市公司岗位数量与D轮公司岗位数量之差略印证一二)。所以找公司并非要一味的奔着上市企业去,就好比打战时认输,前期叫投诚,后期就只能叫投降了。

就岗位数量来说,未融资公司提供岗位最多,天使轮和C轮岗位最少。每个等级都是一个槛,从天使轮到上市,每一级都要淘汰大量公司,总体而言,不管因为什么原因不进行融资,未融资企业资金相对有限,所以给出工资相对有限也是可以理解。而天使轮刚拿到钱也需要更多用于整体发展,急于给老板员工加待遇未免吃相太难看。按常理推测,从D轮到上市,如果不考虑新晋员工摊薄均值,这部分应该收益更高的,但这点从已有数据是看不出来的。

有意思的一点,就学历来说,右图很明显的显示,C轮及以上的公司开始更倾向招本科以上学历的应聘者了,即当公司发展到了一定规模之后,其更愿意通过砸钱来提升招聘门槛,从而减小试错成本。对于学历较低但能力强的朋友来说,选准一个当前等级不高但发展潜力尚可的公司也未尝不可。

再来看看不同等级公司对于工作年限的要求及给出的待遇。

爬取拉钩网技术类全部岗位后的数据分析_第13张图片

上市公司对于工作经验较少的员工,虽然需求量较高,但在待遇方面并不友好。公司发展到这个规模,大多都只是一颗螺丝钉,新人尤其是。而经验丰富的大多是行业的中坚力量,是想招进来领导某个方向的。考虑到薪酬及成长等方面因素,对于新人来说,最好的是选择B-D轮的公司。

最后再来看一看热点城市中不同等级公司的岗位比例。

爬取拉钩网技术类全部岗位后的数据分析_第14张图片

就我个人感觉而言,上市公司越多的城市,资本吸附力越强,整体的环境也就更具活力,而未融资公司越多,则部分说明该城市偏保守,资本进入意愿更低。就这个思路而言,中部及西南部的城市活力明显不足,特别是山城重庆,未融资公司岗位比例高达77.8%,说明外来资本的“水土不服”,所以光凭这份粗糙的数据分析,我可以判断,重庆创新力不足,更多的可能只是对于新东西的学习和改进来适应本地市场。但有弊亦有利的是,资本吸附力不强也使得房价没被炒上去,幸福感提升。与此相反的是,厦门上市公司岗位占比29.4%,月薪与房价比仅为0.259,是热点IT城市中最低的,同样说明了这个问题。外来资本越多的地儿,发不发展再说,房价肯定是得给炒起来的!

四、总结

工作城市的选择:

大牛拼搏型:北京>杭州>上海>=深圳>广州

居家安稳型:成都>重庆>=西安>长沙>=武汉

行业的选择:

有专业背景的,投身AI行业不会错;零背景转行的,从前端开始;领域优选移动互联网,金融,O2O等;学语言从Python和Java开始,后期根据需求继续学习。

公司的选择:

有学历有经验的选择上市公司,钱多机会也多;学历低但能力强的新人可选发展潜力大的发展型公司。当然,有眼光有野心的从未融资企业干起也不错,说不定干着干着就财务自由了。

以上是我爬取拉勾网全部技术类岗位后的一点粗浅分析,当然此类分析的文章也特别多,我一直相信无论什么样的学习,都是从模仿开始,逐渐加入自己的理解和创新,直到完全形成自己的风格。而我的第一篇分析就加入了不少自己的“料”,从数据的获取到分析直至最后的成文,全是自己动手完成,这个过程收获颇丰,也发现了许多不足,还需要继续前进。下一篇我打算做一些关于房地产方面的分析。

如果有朋友恰好看到了这篇文章,且恰好有那么一些收获,我会非常高兴。如果需要本文中的数据或有什么问题,欢迎点赞并留言。

你可能感兴趣的:(爬取拉钩网技术类全部岗位后的数据分析)