秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!

【编者按】失业潮随经济寒冬席卷而至,与战战兢兢的中年人害怕失去工作不同,#95后秒辞#居然上了微博热搜成了热门话题。据《中国青年报》援引研究报告报道,受调查的95后年轻人平均7个月就会辞职,离职率相当高。

 

离职原因五花八门令人捧腹:公司电脑太烂、午餐难吃、人际关系复杂、感觉不顺心、累了想歇歇、挤不上二号线、想回家减肥......调研报告显示,无论工作还是生活95后都不愿意将就,他们更保持个性更注重自我感受。

 

员工离职受年龄段的影响真的如此明显吗?性别、工资、岗位、通勤,这些因素跟员工离职率的关系是什么?企业如何才能通过数据更好地分析员工流失的原因,并采取有效措施降低员工离职率呢?

 

Kaggle的一位分享者使用R语言对IBM的人力资源数据进行了探索式分析。

 

以下是作者原文

 

经理们总是容易忽略‘员工离职’这个问题的关键所在:员工辞的不是工作;而是他上司的为人与管理。” Travis BradBerry,选自《Business Insider》。

 

注意:

 

即使仍有许多不完善的地方,我仍然决定发布这个Kernel。主要原因是我想向Kaggle社区展示这个Kernel并听听大家的意见。所以可能下面的有些描述尚不完整,但别担心,我的目标是在自己正式使用这个项目时将其填充完整,而我也已经迫不及待想听听你们的有趣建议了!

 

这个项目的目标是什么?

 

  • 给初学者做参考:首先,必须承认我自己也是初学者。 我算是“R”世界的小白,所以希望能够借此机会多向大家学习。 现在我的目标是能给初学者提供一个可靠的参考,让他们可以在使用R编程语言时查看。 如果你觉得需要添加一些内容,请写信给我,我将非常欢迎!

 

  • 探索性数据分析:我的数据科学之旅的第一件事就是了解数据背后的故事。 如果连数据都不够了解,那么实现预测算法又有什么意义呢? 我的理念是“深入研究”数据,直到找到可以让我更好地了解这些数据的有趣见解。

 

  • 给出建议:通过对此数据的分析,我将向组织提供一些建议。  我认为“组织如何降低公司内部的损耗率?”是分析中最重要的部分,因为它将帮助我们更好地理解组织可以做些什么来避免人员流失的负面影响。

 

  • 建模:最后,实施预测模型以预测确定未来一段时间某个员工是否要离职。

 

那么如何定义人员流失以及它受哪些因素影响呢?

 

人员流失:基本上是组织内员工的流动率。

 

出现这种情况的原因有很多:

  • 员工寻找更好的机会

  • 工作环境较差

  • 管理不善

  • 员工生病(甚至死亡)

  • 工作时间过长

 

项目结构:

该项目将按以下方式构建

  • 提出问题:在做数据可视化之前会提出问题,以确保此项目中的可视化内容有的放矢。

  • 得到结论:在每个部分之后,我将提供一个摘要总结,以展示我们从可视化过程中获得的结论。

  • 给出建议:向组织提出相关建议以降低员工流失率。

 

通过这种方式构建项目,流程将更容易掌握,也更便于后面想要跟进这个Kernel的人理解。

 

一、数据摘要  

 

在深入进行数据可视化之前,如何确保数据的准确性?

 

这一问题将更好地帮助我们掌握如何在整个项目中使用我们的数据。

 

提出问题:

  • 字段和观测值:数据集中有多少个字段、多少条观测值?

  • 数据缺失:数据集中是否存在缺失的数据?

  • 数据类型:在此数据集中包含哪些数据类型?

  • 数据分布:是左偏、右偏还是对称分布?如果要做统计分析或者建模,这个信息可能会用到。

  • 数据结构部分数据集有点复杂,但是,tidyverse包对于处理复杂的数据集非常有用。

  • 数据含义我们的数据说明的是什么问题?此数据集中的大多数特征都是与分类变量相似的顺序变量。此数据集中的许多变量的范围为1-4或1-5,序数变量越低,情况就会越差。例如,工作满意度1 =“低”而4 =“非常高”。

  • 标签:数据集中的标签是什么,或者输出的标签是什么?

 

摘要总结:

  • 数据集结构:1470个观测值(行),35个特征(变量)

  • 数据缺失:幸运的是,我们没有缺失数据! 这样可以更轻松地使用数据集。

  • 数据类型:此数据集中只有两种数据类型:因子型和整数型。

  • 标签:“Attrition”是数据集中的标签,我们想知道员工离开组织的原因!

  • 非平衡数据集:共计1474条案例,其中1237(占总数的84%)员工没有离开组织,而237(占总数16%)确实离开组织。这导致数据集被认为是不平衡的,因为留在组织中的人大于实际离开的。

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第1张图片

 

二、按性别分析

 

在本节中,我们将尝试查看组织中男性和女性之间是否存在一些差异。 此外,我们也将查看其他基本信息,如年龄,工作满意度以及平均工资。

 

提出问题:

  • 男性和女性员工的年龄分布如何? 是否存在重大差异?

  • 流失员工的平均工作满意度是多少? 是否存在性别差异?

  • 男性和女性员工的平均工资是多少? 每个部门男性、女性的员工人数又是多少?

 

摘要总结:

  • 年龄分布:女性的平均年龄为37.33,男性的平均年龄为36.65,两种分布相似。

  • 工作满意度:对于未离开组织的个人,男女的工作满意度水平几乎相同。 然而,对于已离职的人来说,女性的满意度要低于男性。

  • 薪资:男女员工的平均工资几乎相同,男性平均薪水为6380.51,女性为6686.57

  • 部门:三个部门的男性人数较多,但女性在研发部门占主导地位。

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第2张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第3张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第4张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第5张图片

 

三、按年龄段和受教育程度分析

 

众所周知,每代人都有其独特的特点,我决定在这个数据集中探索相关问题。

 

提出问题:

每代人服务过的公司平均数是多少? 我想看看是不是过去几代人在每一家公司待的时间会比新一代的年轻人长一些。

 

摘要总结:

  • 已离职员工:对于这一类型的员工,我们看到婴儿潮一代(1946-1964出生)的人跳槽过更多公司。

  • 千禧一代(1982-2000出生):大多数千禧一代仍然相对年轻,所以这就解释了为什么千禧一代跳槽的公司数量相对较少,但我估计这个数字会随着时间的流逝而增加。

  • 年龄段与员工流失的关系:似乎千禧一代是人员流动率最高的人,其次是婴儿潮一代。这告诉我们什么?千禧一代更容易因为自己的某个需求而换工作,而婴儿潮一代接近退休,这可能是其流动率第二高的原因之一。

  • 受教育程度与人员流失的关系:这与之前的陈述密切相关,千禧一代受教育程度普遍较高,所以创造了组织内部最高的流失。

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第6张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第7张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第8张图片

 

四、按收入分析

 

我想知道薪资收入的影响程度。 在这里,我们将分析是否“钱是万能的”!

 

提出问题:

  • 部门的月平均收入是多少? 离职与未离职的人之间是否存在显着差异?

  • 工作满意度是否随着收入水平的变化而有显着变化? 满意度较低的个人获得的收入是否远低于满意度较高的人?

  • 离职员工的收入是否低于未离职员工的收入?

  • 绩效评级较高的员工收入是否远高于绩效较低的员工? 员工流失的差异是否显着?

 

摘要总结:

  • 部门收入与人员流失:哇! 不同部门收入不同、员工流失率也存在明显差异。

  • 工作满意度与收入: 一定收入水平下,似乎工作满意度越低,流失率越高。

  • 离职员工样本:我想说大多数样本人口的工资增长率低于15%,月收入低于7,000。

  • 工作疲劳:超过54%的离开组织的工人加班严重! 这会是员工离职的原因吗?

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第9张图片

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第10张图片

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第11张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第12张图片

 

五、按工作环境分析

 

在本节中,我们将探讨与工作环境和组织结构相关的内容。

 

提出问题:

  • 工作角色:每个工作角色中有多少名员工?

  • 各工作角色的工资:每个工作角色的平均工资是多少?

  • 工作角色与人员流失:每个工作角色的员工流失率是多少? 哪个工作角色的流失率最高? 哪个最低?

  • 与当前经理共事的时长:不同时长的平均满意率分别是多少? 最近雇用的经理是否为员工带来了更高的工作满意度?

  • 工作角色的工作环境:不同工作角色的工作环境是否存在差异?

 

摘要总结:

  • 按工作角色划分的员工人数:销售和科研专家是员工人数最多的工作岗位。

  • 工作岗位与薪酬:经理和研究员平均薪资最高。

  • 工作岗位与员工流失:销售代表,医疗保健代表和经理的流失率最高。 这可以告诉我们,在这些部门中,我们遇到了员工的某些问题。

  • 经理:与最近被雇佣的经理打交道的员工的满意度得分低于那些在本公司工作较长时间的经理。

  • 工作环境:正如预期的那样,管理人员和医疗保健代表处于较差的工作环境中,但是,由于大多数销售代表在外工作,所以我们找不到两者之间的相似之处。

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第13张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第14张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第15张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第16张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第17张图片

 

六、深入研究

 

在本节中,我们将尽可能深入地了解员工,以便更好地了解员工决定离开组织的一些原因。

 

提出问题:

各部门员工流失情况:每个部门流失多少员工? 他们有适当的平衡工作与生活吗?

工作距离:从家到公司的距离是离开组织的一个重要因素吗?其他可能影响员工的因素

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第18张图片

 

在本节中,我们将分析可能对离开组织的个人产生影响的其他外部因素。

包括:

  • 从家到公司的距离

  • 出差情况

  • 婚姻状况

  • 股票期权水平

 

这一部分里面还有很多工作要做,我们将进一步分析

 

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第19张图片

秒辞的95后vs不敢辞的中年人,数据分析告诉你员工离职的真正原因!_第20张图片

 

七、相关性和双变量分析

 

在本节中,我们将了解哪些特征之间具有正相关性。 这告诉我们两个变量之间是否存在关联。

 

摘要总结:

  • 总工作年数越高,员工的月收入越高。

  • 薪资涨幅越高,绩效评级越高。

  • 现任经理的任职时间越久,晋升时间间隔越长。

  • 年龄越大,月收入越高。

 

八、图表源码及数据

 

以上就是这个项目的全部内容。值得注意的是,作者给我们提供了此项目的完整数据集,并将上述可视化图表的所有代码开放了出来。

 

如果你想利用这个项目中的数据集做练习、做探索性分析或是想参考项目中可视化图表的源码,回复即可获取!

 

参考文献:

  • R for Data Science by Hadley Wickham and Garrett Grolemund (O'Reilly). Copyright 2017 Garret Grolemund, Hadley Wickham, 978-1-491-91039-9

  • F1 Data analysis by Jonathan Bouchet

你可能感兴趣的:(数据可视化,R语言,Kaggle)