前言
因为之前考虑过去杭州工作,同时身边的朋友同学也有些人离开广州去杭州,而由于对杭州的不了解,便索性爬取了两地的所有招聘数据。这两个城市,一个是老牌稳一线城市,尽管这些年在互联网领域被省内的深圳渐渐超过已是事实,但作为整个华南地区的政治文化经济中心,尤其是在中国的国情下,行政力量对一个城市发展影响的权重毫无疑问是最大的,所以综合实力来看深圳超越广州尚需时日。另一个是新二线城市,一个有着阿里,网易杭州研究院,吉利等知名民营企业的城市,在g20峰会期间,杭州更是全世界关注的焦点,峰会过后,除了带来房价的飙升之外,也带来了创业公司的蓬勃发展,和人口净流量的持续攀升,而这些也印证着这个城市旺盛的生命力。
整个爬虫使用的是Python Scrapy 框架,分析过程采用的是Python数据分析三剑客,pandas,numpy和matplotlib三个库(不过本文很多可视化操作更多是用Seaborn这个库来绘制的,但也算是基于matplotlib),IDE 工具为jupyter notebook
原始的数据
爬到的数据如下图。由于岗位具体要求这一列的字符串内容过长,为了避免占用过多内存和影响表格的美观性,先删掉,待后续需要分析的时候再提取出来,另外薪水一列,处理后取区间平均值,单位是k,去重在爬取的时候已经做了这里不用再做
其中广州共有招聘数据16840行,杭州共有15488行,爬取的职位关键词(即用来搜索的显示列表的搜索关键词)来自拉勾主页,但做了筛选,不包括市场与销售,职能这两个大类,具体如下,对应着上表的Position_type 字段。
公司信息分析
根据公司ID和城市进行筛选去重(这里一定要根据ID和城市去重啊,一开始我只是根据公司ID去重发现丢了好几百个数据,因为有很多公司是跨城的啊),分割上图Company_info的值,得到包含所有招聘公司的信息的表。
在所有需要招聘的公司中,其中广州有4260家,杭州有3467家,公司发展程度分布入下图。
可以看出,不需要融资和未融资的公司数量最多,毕竟多年稳居一线,广州的上市公司数量多于杭州也是情理之中,不过在创业型公司中(这里姑且将天使轮,A轮,B轮,C轮当做创业型公司),从总量来看,杭州高出广州一点,考虑到样本总数本身差异达到八百个,可以看出杭州创业型公司的占比相比广州还是要高出一些的。
接下来,看看两地公司类型的分布差异,取占比最高的前十位
两个城市移动互联网和电子商务这一类型均是最高的,占比超过25%以上。除了这一类型之外,广州的游戏公司占比更多,而杭州的互联网金融这一块要高于广州,这一点和我当初料想的一致,阿里给货币基金增加了流动性,同时让天弘基金一家独大,同时腾讯,京东,百度,其金融用户也都在稳步增加,不过阿里帝国在互联网金融这一领域的地位却是不可撼动的,在阿里这棵大树下,杭州也试图打造中国互联网金融中心,诞生了如挖财 51信用卡 同花顺等知名互联网金融企业
岗位分析
由于职业类别划分太多,这里做一次二次划分,例如将开发划分为前端 后端 移动端,人工智能,划分依据有参考拉勾网。
另外拉勾的分类并不是严格的,甚至准确性都存在问题,为了尽可能多显示数据,拉勾的搜索算法非常模糊,一个工作页面可能会出现在多个关键词搜索中,尤其在运营与产品的相关职位上。为了减少误差,同时降低分析成本,这里不对单个职位进行准确分析,而对大类进行分析,具体分类如下图。即将括号中的搜索关键词聚合到一起划分为不同类别来进行分析,一共有前端,后端,移动端,产品岗,运营岗,人工智能岗,设计岗。
两地不同岗位需求情况
y 轴代表的是这一类别的招聘总数,同样考虑到样本总数是不同的(广州有16840条招聘数据,杭州有15488条),原本考虑用不同岗位招聘数目占总数目的占比来进行比较,但这样做意义不大,绝对数据有时能显示更多信息。
可以明显的看出,运营岗,后台开发,前端开发的招聘需求是最旺盛的,同时两地招聘需求差别不大,而移动开发现在连后台开发的一半都不到,随着微信小程序的盛行和html5 混合开发逐渐成熟同时APP的单次下载成本的走高,很多有开发需求公司要么外包给第三方公司,要么只是开发一些有着基本功能的应用来进行市场占坑,联想到之前的移动开发培训班的火爆到现在的停课,实在让人唏嘘。
而后台开发独树一帜,职业需求相当大,而且其具体类别除了node.js比较新之外,java,.net,php等这些均是些很老的技术了,看来后台开发的自身属性定位,也决定了他不像移动开发成为现象级产品。
而人工智能岗与设计岗差别就比较大了,杭州在总数少于广州1300多个前提下,人工智能相关的岗位还是比广州要高,联想到上文,杭州在创业公司数量,互联网金融一块公司数量占比上的优势,看来在互联网新兴创业领域,杭州确实走在前排。
平均薪资的对比分析
到了这一点,可以说是比较有趣的点了,毕竟改革开放这么多年,资本主义早已深入人心。
画出箱线图,如下
这里的薪资采用的平均薪水,也就是拉勾网里面Ak-Bk中,A、B的平均值,单位是千/月薪,上图箱线图红色虚线表示的是平均值,黑色实线表示的是中位数。
先总体来看,所有职位中,不管是中位数还是平均值,杭州都要高于广州,其中人工智能岗两者平均工资差别达到4K,其次是前端,后端,移动端,设计岗均值差别分别为,3k、3k、2.4k、1.9k,而相对较小的产品和运营岗,差距也有1k左右。
在具体岗位中,开发岗位薪水最高,非开发岗位薪水最低,其中开发岗位中又以人工智能相关的岗位工资最高,非开发岗位以产品岗最高,
再来看箱线图本身,都有异常值的存在,而且都是极大的异常值,这也说明了,很多公司对于人才是不惜金钱成本的,而且这种对人才的渴求也是不分领域的。另外除了人工智能岗和产品岗,数值都相对比较集中,同时有个比较奇怪的现象,非技术岗的产品岗,UI岗,运营岗的薪资中位线相比开发岗的中位线都要靠下一点,说明在中位线以下50%的人工资非常集中,而超过中位数的50%的工资则分散很大,这就和我之前料想的一样了,以我不多的求职经验告诉我,这些职位的薪资应该是两极分化严重,旱的旱死,涝的涝死,而且“贫困”人口比例更高,如果薪水和工作年限呈正线性关系的话,非技术岗应该更青睐工作年限不长的人,下面可以用数据来验证。
其中还有一个诡异的异常点,杭州的UI 岗,竟然开出了99k,薪水这么高,我还分析个鬼啊,赶紧跑路去学UI吧,不过跑之前得把这个异常值给抓出来,如下图
是它,是它,就是它,可惜了,已经下线了。。。。。
不同岗位对工作年限的要求情况
这里不划分城市,因为从上图的线框图来看,不同城市,同一岗位的中位线相对框体的位置变化均不太大,这里验证一下关于上文提到的非技术岗的中位线下移是否和猜想的相一致,画出各个岗位对工作年限要求的扇形分布图
果然,运营岗和设计岗对一到三年以及一到三年以下工作经验的需求量最大,超过50%,产品岗达到49%,后台与人工智能的相对较低,分别在41%和36%,当然这个假设的前提是薪水与工作年限正相关的前提下得出的。下面接着看,工作年限对工资的影响。
不同岗位工作年限与工资的关系
将工作年限作为变量,画出不同工作年限与工资的关系图,这里为了准确性,去掉了工作年限不限的部分。
随着工作年限的增加,工资稳步上涨,毫无疑问,呈正相关,其中,应届毕业生开发岗位起薪最高,其中一年以下经验的人工智能方面的工作就已经破万了,3-5年的工作经验平均薪水就已经达到25K,而达到这个薪资水平的人,均是架构师,各种经理title(不包括产品经理)的这些需要多年深耕某一领域的人,这里就不画出平均工资排行榜的图了。人工智能确实是个很有钱景的职业。
接下量化分析下随着工作年限的提升,平均薪水到底能提升多少,这里直接用表格展现,表格里面的值代表下一列减去上一列的差值,这里真得感谢下pandas有个好用的diff()函数,刚开始要处理这个问题我是想着用excel的。。。
其中产品岗和人工智能岗的薪资在一到三年里的提高是最多的,而全部岗位三到五年后的薪资几乎都是刚毕业的三倍
不同岗位对学历的要求
大多数岗位要求均是本科,所以这里着重分析下要求硕士及以上的工作岗位,取前十位
毫无疑问,几乎全是人工智能相关的岗位,其中深度学习差不多近一半的相关岗位都要求硕士学历,看来高薪职业还是有一定的门槛的,当然并非绝对,不过多读书,多学习向来都不会错的。
结语
回到标题,对于强弱这种比较,每个人看法都不同,而且评判的维度之多之复杂也远不是爬个网站就能得出来的,你有心进入互联网金融行业那么可以选择杭州,也可能醉心于游戏行业而选择广州,这里我的爬取结果只是做一个抛砖引玉。
接下来,对于本文章中多次提到的人工智能相关的岗位,可以考虑用分词做一下这个领域的具体工作职责内容与要求,并生成词云图,毕竟这个岗位实在是诱人。
爬虫代码,与jupyter notebook 分析代码如有需要可以提交到GitHub,本人也是初涉Python,学习爬虫与数据分析,也才不过一个月时间,还是会碰到很多问题,希望能在交流中学习进步。
感谢阅读 :)