如今通讯市场饱和,运营商之间争夺客户十分激烈,电信运营商一般会通过套餐(某种合约)的形式来吸引和绑定用户,为了保持用户粘性,会将合约的价格定得比随用随付的要优惠。比如,一个1年的套餐合约用户,需要按照套餐合约每月缴纳一定的通讯使用费,而运营商会提供约定的服务,如果用户有在套餐范围之外的通讯使用,则可能会产生额外收费。当用户的套餐合约到期时,用户很可能受到其他运营商的优惠活动吸引而转为另一家运营商的用户,这就造成了原运营商的“用户流失”。为了留存更多的用户,对合约快到期,并且可能流失的的用户,原运营商需要有针对性地推出老用户“续约”(即用户“留存”)的优惠方案。
老用户的“续约”优惠方案,从盈利的角度来说,应该尽可能地针对那些会对优惠方案响应的客户发放。需要对以往流失客户和对套餐感兴趣的用户进行研究,以便做出更好的应对方案。这里我们先针对以往流失/留存用户,进行判别预测分析。
针对套餐合约即将到期用户进行有效判别和留存。问题分解为两步:第一,识别要流失的用户;第二,在这些可能流失的用户中,有哪些面对续约优惠会转为留存。这里我们只针对以往流失/留存用户,进行判别预测分析。
工具:使用spssmodeler
数据抽样于一段时间内的用户基本信息数据、用户业务信息(如下图)。数据供1000条记录。
(1)、检查数据是否有缺失值、重复值,异常值等并进行处理。
(2)、输出查看基本统计信息Statistics
······
数据中未出现空缺值;值类型和取值也验证正确;业务逻辑错误通过观察数据的分布,可发现或许存在问题上月**业务和**总业务分布存在异常。我们引入(两个导出节点)每个用户的**总业务汇总到一起,上月**业务也汇总到一起,生成2个新的字段总业务和上月业务。
总业务=总长途业务+总免费业务+总月租业务+总电话卡业务+总无线业务
上月业务=上月长途业务+上月免费业务+上月月租业务+上月电话卡业务+上月无线业务
再次运行检查结果如下,有明显的改进尤其是上月业务。
首先我们就去掉**总业务和上月**业务,在类型里设置角色为无即可。同时把客户流失设置为目标。
类别型--类别型(输出矩阵)
是否流失--地区:(剔除地区变量)
同理:剔除婚姻状况,保留学历水平,保留是否退休,.....
将保留下来的变量,再检验自变量间的相关性(相关性强的变量,可以根据模型需求再慢慢调优)
类别型--数值型(输出Statistics的相关性检验)
对于强相关的两个类别型变量(非目标变量),保留其中一个。其次与客户流失变量相互独立的剔除。
数值型--数值型(输出Statistics的相关性检验)
对于强相关的两个数值型变量,保留其中一个,保留可解释性强的一个。
综合
以上需要我们一对一对的变量去查验,当然也可以点击建模的特征选择,快速的进行筛选比对。
加入过滤器,把确定不需要的字段去除
在数据审核的时候发现总业务字段的分布很长尾,所以做一下对数转化 log(总业务)
再次确认修改各个变量的角色,如id改为标记,客户流失改为目标
因为可以做为分类预测的模型很多,不妨我们加入多个模型,最终选择最优模型
训练集中c5.0和s_svm效果最好,但是在测试集和验证集中贝叶斯网络效果最好。所以c5.0和s_svm可能存在过渡拟合,最终选择贝叶斯网络
观察最终选取的模型:贝叶斯网络,如下图.
其实影响客户是否会流失的因素很多,单(少量因素)很难解释清楚。当然这里我们已经初步划分出重要影响因素,和判别模型。有时间的时候还可以做进一步优化模型。