Churn Model 系列一:业务角度



用户流失模型:

http://www.newnorth.com/creating-a-predictive-churn-mode-part-1l/

Creating a Predictive Churn Model : Part 1


【编者按】这是张磊博士2008年在数据挖掘研究院论坛上针对heilql的一篇回帖,主要针对当时电信离网用户预测模型阐述一下自己的看法,转眼5年过去,统计网仅以此贴向曾经的数据前辈们致敬。

理论背景
     客户流失分析或客户流失预测:通过离网调研和数据挖掘,捕捉客户离网前的特征,预测客户流失的概率。这对于优质客户的保护是十分重要和有效的分析手段。对于客户流失预测,从两个方面来看:一个是客户流失预警,一个是流失客户特征分析。
    客户流失预警:定义统一的预警模型,根据预警模型,客户话单数据中自动匹配预警数据,预警模型可以按如下规则定义,并且可以灵活扩展。
    流失客户特征分析:通过决策数算法,分析流失客户特征,然后通过这些特征得到当前在网客户中匹配流失概率高的客户数据。
    通过客户流失分析获得流失客户数据和潜在流失客户数据,从而将这些数据分配给客户服务部门,整合销售服务资源,根据客户的需求,设计个性化的营销策略,快速反应,以此达到召回流失客户,挽留流失概率高的客户,实现对客户的守护。
现实背景
   随着电信行业竞争的加剧,客户流失的规模越来越大,周期越来越短;电信业新增客户和客户流失模式,就犹如往没有底的水桶中倒水。
分析方法
客户流失分析的流程到处都在讲,不外乎是:
1. 分析主题确定及数据指标的选择;
2. 数据仓库数据提取及清洗;
3. 不相关指标剔除;
4. 用训练数据建立模型;
5. 用测试数据检验模型;
6. 预测新的流失用户,并提取用户名单;(摘自heilql原帖)

    我曾经看过所谓预警模型,只是对一些指标设定阈值,然后多个指标加权评分之后,得到总预警评分,若超过阈值,则提出预警。
    问题在于:这种思路有些一刀切,指标的选取和阈值的设定都存在很大的人为性,也缺乏有效性评估,所以个人觉得没有太大的实践价值。
    再谈流失预测分析,业界普遍都是采用决策树算法来建立模型。同意heilql的一些看法,包括挖掘流程的大致描述、指标选择是重点等。其实在我们以前所做的多个客户流失预测项目中,更重要的还有:明确业务问题的定义和如何运用挖掘结果来指导客户挽留活动。以下分别简要说明:

① 明确业务问题定义
  我一直觉得数据挖掘就是个不断尝试的过程,没有定式。也许挖掘人员掌握了一些套路,但是在你明白要做什么以及数据的情况到底如何之前,其实你是不能给客户任何保证的。业务问题定义类似于需求分析,只有明确了业务问题才能避免多走弯路,浪费人力物力。
  对于客户流失预测来说,一般要明确这几个问题:
  -什么叫做流失?什么叫做正常?(严格定义好0和1)
  -要分析哪些客户?(比如在移动通信行业,很可能要对签约客户和卡类客户分开建模,还需要排除员工号码、公免号码等等)
  -分析窗口和预测窗口各为多大?(用以前多久范围的数据来预测客户在以后多久范围内可能流失)


② 变量选取、数据探索和多次建模
  这个类似于heilql所提到的指标选择,也许变量是更常用的说法;电信业的绝大多数数据都可能被探查并用于建模过程。一般我们分为如下几类:
  -客户基本信息(年龄、性别、在网时长、当前状态。。。)
  -客户账单信息(账单金额、优惠金额、明细账单金额。。。)
  -客户缴费信息(缴费次数、缴费金额、欠费次数、欠费金额。。。)
  -客户通话信息(通话次数、通话时长、短信次数、呼转次数、漫游次数。。。)
  -客户联络信息(投诉次数、抱怨次数。。。)
  这些变量的数目很多,而且还会根据需要派生出很多新变量,比如近一月账单金额和近三月账单金额的比例(用于反映消费行为的变动)。
  建议挖掘人员把所有能拿到数据都探索一遍,然后逐步明确哪些变量是有用的。而对于一个公司来说,事先能给出一份比较全面的变量列表,也正体现了他们在这方面的经验。对于挖掘新手来说,多思考,多尝试,也会逐渐总结出来。

③ 对业务的指导(模型的发布及评估反馈)
     挖掘人员常常是技术导向的,一旦建立好流失预测模型并给出预测名单之后,常常觉得万事大吉,可以交差了。但是对于客户来说,这远远不够。一般来说,客户投资一个项目,总希望能从中获益,因此在验收时领导最关注的问题可能是:数据挖掘对我的ROI有什么提升?
     要给客户创造价值,就需要通过业务上的行动来实现。No Action, No Value。这种行动可能是帮助客户改善挽留流程,制定有针对性的挽留策略,明白哪些客户是最值得被挽留的,计算挽留的成本以及挽留成功后可能带来的收益。以上这些方面需要挖掘人员不仅仅是技术专家,还需要是业务专家,是Business Consultant。 


随着市场竞争的加剧,中国电信面临的压力越来越大,客户流失也日益增大。从统计数据看,今年固话小灵通的销户数已经超过了开户数。面对如此严峻的市场形式,当务之急就是要尽全力减少客户的流失。因此,利用数据挖掘方法,建立一套可以及时预测客户流失率的模型就相当有必要。

    (一)确定客户流失模型的目标:预测可能流失的客户名单。经过对市场的分析,我们发现固话小灵通流失率比较大,而宽带等数据业务还处于增长期,流失率比较小。因此,我们把预测的产品范围限定在固话和小灵通上。另外,我们也不考虑那些因为欠费被强制销户的客户,因为这些客户没有什么价值还有,对已经加入了某一类有销户时间限制套餐且未到期的客户也可以不考虑。这样,我们建模的目标范围变得更加明确。

    (二)获取用于建模的数据。建模的数据可以从各个营运系统中提取。可以从IBSS系统提取客户数据、服务数据、产品数据、套餐数据、业务数据:从计费账务系统提取市话计费数据、长途计费数据、智能网计费数据、省数据业务计费数据;从CMMS系统提取渠道数据;从资源系统提取地址数据、资源数据;从交换系统提取通话数据等等。另外有一些数据需要通过市场调查获取,比如调查哪些地区是其他运营商有布线的固话竞争区域。可以在区域范围内的交接箱资料加上“竞争区域”的标识。

    (三)对数据进行清洗、格式化,转换成建模数据集。一个客户可能有多个固话和小灵通,销户指的是固话小灵通拆机,而不是指客户不再使用所有的电信产品。因此真正的客户预测流失上并不具有价值。经过分析,我们确定建模的对象为服务实体,即固话和小灵通。模型集的行代表一个固话或小灵通,计费等数据则对应到各个列。另外。为了使预测结果更接近于现实情况,我们取最近12个月的计费数据。接下来,我们要剔除一些无效的变量,如身份证号、电话号码、绝对日期、地址数据等。这些变量对建模没有用处。最后就是加入衍生变量这个过程需要我们对电信业务进行深入的分析并充分发挥创造性,这样才能生成一组对建模很有意义的衍生变量。如根据固话对应的交接箱,我们提取出“是否处于竞争区域”的变量;从通话日期可以提取出“星期几”、“是否节假日”等变量,另外,还可以通过组合生成全部月份的变量总和及其方差,各月变量占总和的比等变量。经过这些清洗和转换工作,我们便生成了用于建模的数据集。

    (四)建立模型。我们选用SAS EM软件包作为建模工具,在挖掘算法方面选用决策树算法。决策树算法可以处理上百个字段,具有探索功能,且高度自动化。考虑到固话和小灵通这两类产品有很大的区别,因此需要分别建立预测模型。接下来,我们对客户进行分类。按月平均消费额分成高价值客户和低价值客户。另外再分出两类特殊客户,近期开户的客户和有申请套餐的客户,对这四类客户分别建立模型,再将模型进行合并。

    (五)模型评估。对模型的评估同样分成四类客户分别评分。即生成四类客户的评分数据集,分别输入模型中,得出预测结果。把结果和实际情况进行比较来评价模型的有效性。

    (六)模型预测结果用于支持决策。客户流失率预测模型建立后,我们就及时预测某个客户流失的可能性大小。当其流失可能性高于某一分值,我们就认为他是将可能流失的客户,就可以及时的推出针对性的营销套餐来留下该客户。



地方



用户流失模型:

你可能感兴趣的:(云计算/大数据)