政治(Politics):目前全国有二十多各地区出台了大数据相关的政策,而且很多地区都设立了专门的大数据管理机构。
经济(Economy):据相关数据统计显示,中国大数据产业受宏观政策环境、技术进步与升级、数字应用普及等众多利好因素影响,2018年整体规模达到4384.5亿元,较2017年同比增长24%,预计到2020年规模将达到6605.8亿元。
社会(Society):数据分析师几乎覆盖了所有的行业,从数据类公司、咨询公司到物流、传媒公司等,无一不渗透着数据分析的内容。在被视为“数据元年”的今天,数据分析师曾被Times时代杂志誉为“21世纪最热门五大新兴行业”,国内数据分析行业专业人才每年以千位数非速增长着,未来中国对数据分析师的需求更是呈井喷之势。
技术(Technology):一些已经较为成熟的数据分析处理技术,例如商业智能技术和数据挖掘技术,已经在多个行业领域里得到广泛和深入的应用。但对于像Hadoop、非结构化数据库、数据可视化工具以及个性化推荐引擎这样的新技术,其较高的技术门槛和高昂的运营维护成本使得国内只有少数企业能够将其运用到深入分析行业数据中。
项目描述:对国内数据分析岗位的人才需求进行大致了解,分析招聘网站上和数据分析相关的职位信息,确定需要分析的指标,提出如下问题:
链接:https://pan.baidu.com/s/1qkCgMPsV9JhUcH_r33459A
提取码:jeji
附上数据集,该数据是2020年3月29日从“前程无忧”网站上检索出来的结果,检索词为数据分析师(全文)。
在Excel表格的所有字段中“标题链接”对分析问题的意义不大,可以选择隐藏。需要用的字段有职位名称、公司名称、工作地点、薪资、工作年限学历人数、工作职责、职能类别、关键字、公司性质、公司规模、行业。
(1)职位名称
职位名称字段的在数据集中的格式各异,该字段的数据项除了职位名称,还有很多多余的描述,例如职位ID、薪酬和待遇的描述、有关职责内容的相关标记,给数据一致性带来了很大不便。
总之考虑到以下原因,决定不从职位名称维度做分析:一各公司的职位名称以及职位ID本身就各不相同,基本上不可能做到一致;二职位名称包含的信息具有迷惑性,有可能职位名称和岗位职责并不相符,并不严格属于数据分析岗位;三该字段的补充描述的信息可以在其他字段,如薪资、职能类别、工作地点中找到。
(2)工作地点
经观察,工作地点字段可以分隔成两部分,一部分是工作城市/省份,一部分是具体的城区,这部分有些是缺省的。
利用FIND、LEFT、RIGHT、MIND函数截取字符,城市/省份=IF(ISNUMBER(FIND("-",D2)),LEFT(D2,2),D2),城区=IF(ISNUMBER(FIND("-",D2)),MID(D2,4,5),"")。
(3)薪资
薪资字段的标准化主要需要解决两方面的问题:一是单位不一致的问题,出现的单位有千/月、万/月、万/年、元/天;二是有一些数据项使用范围表示,无法参与运算。
为解决以上问题,首先把“以上”、“以下”的描述删除,获得一个确切的数字。
其次,将使用数值范围表示的薪资数据项,分为最低薪资、最高薪资,之后求平均得到平均薪资;若薪资数据项用确切的值表示,则认为最高薪资、最低薪资、平均薪资均是相等的。具体做法:
最低薪资=IF(ISNUMBER(FIND("-",G2)),LEFT(G2,FIND("-",G2)-1),""),
最高薪资=IF(ISNUMBER(FIND("-",G2)),MID(G2,FIND("-",G2)+1,FIND ( “/” , G2) -FIND ("-",G2)-2),""),
平均薪资=(最高薪资+最低薪资)/2
筛选出最低薪资字段为空白,薪资字段不是空白的记录,
最高薪资=最低薪资=平均薪资=MID(G5,1,FIND("/",G5)-2),
通过以上步骤将文本类型转化为数值类型之后,统一单位为千/月,最低薪资=IF(N2=“千/月”,H2,IF(N2=“万/月”,H210,IF(N2=“万/年”,H210/12,IF(N2=“元/天”,H2*30/1000,""))))。
(4)工作年限学历人数
从中提取出“学历”这一字段,=IF(ISNUMBER(FIND(“硕士”,O9)),“硕士”,IF(ISNUMBER(FIND(“本科”,O9)),“本科”,IF(ISNUMBER(FIND(“大专”,O9)),“大专”,IF(ISNUMBER(FIND(“高中”,O9)),“高中”,IF(ISNUMBER(FIND(“博士”,O9)),“博士”,IF(ISNUMBER(FIND(“中专”,O9)),“中专”,""))))))。
从中提取出“工作年限”这一字段,=IF(ISNUMBER(FIND(“经验”,O505)),MID(O505,FIND(“经验”,O505)-4,3),"")。但有一些数据项会出现问题,手动调整工作年限为“10年以上经验”。
“标题链接”字段具有唯一性,对该字段进行重复值识别,具体做法为突出显示单元格格式-重复值,再把填充颜色为深红色的单元格筛选出来,把重复值删除,一共删除十一条重复的数据。
在数据集中一些岗位和数据分析并没有关联,例如招聘银行客服专员、金融客服等,因此对数据进行筛选,筛选出职位名称、职能类别、关键字中含有“客服”、“催收”的数据,再根据职位描述进行判断和删除,删除重复值后保留5732条数据。
本文分析主要运用数据透视表,以及可视化,回顾之前想要分析的问题:
从地图上可知,数据分析岗位需求主要集中在广东、北京、上海等区域。
使用数据透析表,筛选出出现次数前10%的城市,定义为热门城市,包括北京、成都、广州、杭州、合肥、南京、上海、深圳、苏州、武汉、西安、重庆一共十二个城市。
下图可以看出一、二线城市是对数据分析人才需求旺盛的城市,尤其是四大一线城市——北上广深,数据分析岗位的职位数目远超其他城市。
从下图可以看出数据分析岗位的薪资分布,6-10千/月和10-20千/月薪资的职位数量是最多的,说明整体看来数据分析属于较高薪的岗位,未来发展前景良好。其中不少职位的薪资处于20-50千/月,甚至50千/月以上,数据分析岗位有很多是面向高端人才进行招聘。也有不少职位的薪资处于0-4千/月,这些职位有一些是兼职、实习岗位,有一些从事的是数据录入、数据对比等简单的文职工作。
(2)热门城市的平均薪资
计算十二个热门城市的平均薪资,从下图可以看出,数据分析岗位平均薪资最高的城市为北京,其次为上海、深圳。
整体来看最高平均薪资和次高的平均薪资相差较远,提出假设:北京高端数据分析师比例较大,因此拉高了平均值。
统计十二个热门城市各个薪资水平的职位数目:
上图可以看出,在北京薪资为20~50千/月的数据分析岗位的占比,明显比上海、深圳这一薪资的占比要高。而且,可以明显看出,排名靠前的城市高薪职位的占比比排名靠后城市的要高,且越往后占比逐渐呈下降趋势;排名靠后的城市低薪职位的占比比排名靠前城市的要高,且越往后占比逐渐呈下降趋势。
(3)薪资和公司规模的关系
总体看来,随着公司规模的增大,平均薪资逐步升高。公司规模10000以上的企业数据分析职位的薪资明显高于其他规模的公司。
(1)统计不同行业的职位数量
统计各个行业的职位数目,筛选出职位数目最多的前15个行业,如下图所示。图中可知,互联网/电子商务行业对数据分析岗位人才的需求量远超其他行业,计算机软件、金融/投资/证券行业对数据分析人才的需求量也很大。
(2)哪些行业平均薪资会比较高
计算各个行业的平均薪资并排序,平均薪资最高的前10类行业如下图,其中计算机硬件行业的数据分析岗位平均薪资最高,其次为餐饮业、石油/化工/矿产/低质、银行。
从上面饼图可以看出,0-4年工作经验的需求占绝大多数,数据分析岗位对应届生/在校生的需求占比为16%。
(2)哪些行业对职位分析岗位的工作年限要求比较高?
由于行业的种类达60类之多,可以选择出现次数最多的前10个行业,统计各个工作年限的占比。图中可以看出计算机服务、互联网/电子商务、计算机软件、通信/电信/网络设备行业需要较长时间的工作经验;制药/生物工程、金融/投资/证券行业相对来说所要求的工作经验较短。
图中可以看出学历要求的分布情况,本科学历占比最多,达到66%;高中、博士、中专学历的占比很少,说明绝大多数的数据分析岗位本科、大专学历即可担任。
(4)哪些行业对职位分析岗位的学历要求比较高?
同样对出现次数最多的前15个行业,统计不同学历的占比。图中可以看出,制药/生物工程、教育/培训/院校、专业咨询行业对数据分析人才的学历要求相对较高,批发/零售、服装/纺织/皮革行业对数据分析人才的学历要求相对较低。
(5)数据分析岗位需要哪些技能对职能类别字段做词云分析,得出下图的词云,数据分析岗位要求熟练使用excel等分析工具和sql等数据库语言;熟悉业务,具有良好的沟通能力、团队合作能力;本科以上学历,具有一定的工作经验。