excel数据分析案例——电信运营商用户流失分析

原文:https://zhuanlan.zhihu.com/p/55686050

本文为原文基础上的练习作

数据来源:https://www.kaggle.com/blastchar/telco-customer-churn

数据分析的基本步骤
        1、提出问题(有时,会在清洗完数据后,根据数据的描述性分析,再提出合理的问题。本数据集,即在清洗后,提出了问题)
        2、理解数据列名,各个字段会出现的值的意义
        3、数据清洗(缺失、内容错误、逻辑错误、不需要的数据)
        4、数据分析(excel下,就是简单构建数据透视图,做一些描述性分析。更高级的话,应该应用一些数据挖掘的算法,本例中,就应当用分类算法,决策树、KNN等)
        5、数据可视化及报告

一.提出问题/理解数据字段含义

        该数据集为电信运营商流失数据表,含一些可能会对流失有影响的变量。希望通过分析,知道那些用户群最需要最先被采取干预措施;了解哪些变量,是对客户流失起着重要作用的变量;以及,试图做出预测,识别那个客户,最有可能是下一个流失的客户。

excel数据分析案例——电信运营商用户流失分析_第1张图片

二.清洗数据

知乎网链接:https://zhuanlan.zhihu.com/p/20571505

三.提出问题

1、什么人群客户流失最多。

2、什么因变量,会对电信用户的流失会有影响。

四.数据分析

1.InternetService流失用户描述分析

运用数据透视表,将Churn,InternetService放入透视表并且生成一张圆环图表:

excel数据分析案例——电信运营商用户流失分析_第2张图片

能发现,有约1/4的用户流失了。

接下来看再哪一个消费额度区间的流失量最大:

excel数据分析案例——电信运营商用户流失分析_第3张图片

能发现,月充值在78.25~98.25之间的用户最易流失。但是,若是这个区间的用户量基数本身就是最大的呢?可以做一张各个区间保留和流失用户的占比:

excel数据分析案例——电信运营商用户流失分析_第4张图片

能看出,78.25~98.25这个区域流失的用户的比重相较其他区间更易流失。通过这个图表能得出结论,需对这个区间内的客户进行干预,挽回。

摘自原文:

这里我们做出几个猜测:

a、可能流失的客户由于服务商提供了某个高消费的服务(宽带网络、电话服务等),但服务质量并不让用户满意,从而用户流失。

b、人群的本身属性(是否老人、是否配偶等),与用户流失呈相关。

c、提供服务时长对用户流失也会有影响(从用户侧考虑,使用越长,用其他产品替换本电信服务成本越高)。

2、流失用户因素推测

a、产品使用时长

excel数据分析案例——电信运营商用户流失分析_第5张图片

可以看出,使用时长越长的用户流失率越低。

b.用户性别

excel数据分析案例——电信运营商用户流失分析_第6张图片

由此可以看出来,用户性别对于流失率没有显著影响。

c.是否老年人

excel数据分析案例——电信运营商用户流失分析_第7张图片

可以看出,流失率在年老人群、与非年老人群中可能存在显著差异(是否的确差异显著,还需要再做假设检验)。同样的方法,还可以再初步估计是否有配偶、有家属、是否订阅电话服务、是否有多重号码、是否接通宽带等服务,与流失情况之间的关系。

d、是否与某个宽带服务有关

excel数据分析案例——电信运营商用户流失分析_第8张图片

这里是值得重点关注的:接入光纤(Fiber optic)的用户,接近4成的用户流失了。已经高于了全体用户的流失用户占比(26%)。

因而,我们可以猜测接入光纤(Fiber optic),与用户流失有相关。但至于是否是接入光纤就导致了用户流失,还应该探究更多的因变量。因为,可能某个因变量C,与接入光纤高度相关,但这个因变量C,才是导致用户流失的原因。

 

 

你可能感兴趣的:(学习笔记)