招聘网站数据分析师职位分析

招聘网站数据分析师职位分析

(一) 提出问题

1. 在那些城市找到数据分析师的机会比较大?

2. 数据分析师的薪水如何?

3. 根据工作经验的不同,薪酬具有怎样的变化

(二)  理解数据

数据源计有14列,6875行


在14个列字段中:

城市:用来比较不同城市对数据分析师的需求如何

职位所属:分析工作的方向

职位ID: 每一行数据的唯一标识,用于去掉重复值

薪水:比较不同城市、和所属领域的薪水区别

工作年限:从时间轴上对比薪资涨幅

(三)  数据清洗

这一步的目的是去掉无效、重复值,填充缺失值,使其符合数据要求

1.  选择有效字段列,

对数据分析无意义的字段选择隐藏,这里隐藏[公司全名]和[公司ID]

2.  列名重命名

将列名更改为更符合自己要求的形式(如有需要)

3. 删除重复值

这里对字段[职位ID]进行删除重复值助理

4.  缺失值处理

使用COUNTA函数进行对有效数据列进行缺失值统计

结果发现,[城市]这一列缺失2条数据

一般对缺失值的处理有4种方式:

1)    通过人工手动补全(只针对缺失值非常少,且能够完全确定该值)

2)    删除缺失数据(删除该数据对之后的分析影响不大)

]3)   用平均值代替缺失值

4)    用统计模型计算出的值去替代

这里符合第一种情况,定位空值进行手动填充即可

5.    一致化处理,

1)  对数据进行统一的命名和处理,如字段[公司所属领域]是“企业服务,数据服务”,对该列进行拆分,使用数据- -分列功能

2)      将薪水字段处理为最低薪水、最高薪水、平均薪水三个字段,用于存放清洗后的薪水数据,这一步通过几个函数组合FIND-MID-LEFT-LEN来实现

在此过程中,最高薪水列出现错误值,使用筛选功能查找错误值:

其一,部分数据夹杂着K,使用替换功能该K为k

其二,出现薪资范围为xxk以上,将其修改等于最低薪水

6.数据排序

对平均薪水列进行降序排列

7.对异常值进行处理

插入数据透视表,调整设置

通过数据透视表,发现有以下职位不属于数据分析岗位

重新插入一列,命名为数据分析职位

使用函数再通过筛选,过滤掉所有非数据分析岗位的异常值

(四)构建模型及数据可视化

1. 在那些城市找到数据分析师的机会比较大?

以城市为行标签,工作年限为列标签,数据透视分析不同城市对工作年限数据分析师的需求概况,按城市计数项降序排列:

将数据按列汇总百分比显示:

将数据按行汇总百分比显示:

       从图表可以看出:在北京数据分析的岗位最多,之后是上海,深圳,表现出极为明显地域性,即主要集中在一线城市,对工作年限的要求为3-5年最多,其次为1-3年,这可以说明该岗位对年轻人需求更多

2.数据数据分析师的薪水如何?

对平均薪水进行描述统计分析

以城市为行标签,平均薪水为列标签,数据透视表分析城市宇平均薪水的关系

从图表中可以看出,北京的数据分析师平均薪水最高,其次是深圳和上海

3.根据工作经验的不同,薪酬具有怎样的变化?

以工作年限为行标签,平均薪水为列标签,数据透视分析工作年限与平均薪水的关系

从图表中可以看出,工作年限与平均薪水基本呈现正相关,即随着工作经验的增长,数据分析师的薪水也在不断增加

(五)分析结论

1.数据分析这一岗位,有大量岗位集中在一线城市,去这些城市找工作,可以提高求职率,

2.从平均薪水来看,北京是一个非常好的选择,其次是深圳和上海

3.数据分析招聘比较年轻化,有接近70%的工作经验要求在5年以下,对于数据分析师来说,5年是一个瓶颈期,如果5年内没有较好的发展,之后可能会面临较大的压力

4. 工作年限与平均薪水基本呈现正相关,即随着工作经验的增长,数据分析师的薪水也在不断增加,工作10年以上的人,能获得相当丰厚的汇报

你可能感兴趣的:(招聘网站数据分析师职位分析)