决策树 - 客户划拨研究

模型背景

1.使用分而治之思想,找到一个分割点,使划分后的数据“纯度”更高

2.通过计算信息熵,找到信息增益最大的参数,即为分割点

3.容易产生过拟合,rpart提供“复杂度损失修剪”方法,参数:
    1)偏差小于某个特定值,默认0.01
    2)节点中样本量小于某个固定值,默认20
    3)当树的深度大于某一个界限值,默认30

业务背景

物流客户中,中小客户划分给电话销售管理,通过电话管理客户,其中一部分客户活跃度很低,划分为微型客户MC,由一个销售(MCE)管理,通常只是接电话,主要通过EDM和邮件批量主动联系客户。

年底的时候,我们通常需要找到微小客户MC,划分到单独的销售管理。我们经常遇到的挑战是,如果我们将过多的MC分给了普通电话销售(TSE),那么将给TSE带来低效的业务客户,产出低,耗费额外精力;如果误将TS客户分给了MCE,那么很可能由于没有提供相应的管理和服务,导致客户流失。

过往来看,主要是按照当年月均收入来判断,当月均收入低于500,将划分为MCE管理,实际上发现,每年做的Rankup数量挺多的,划分不够合理。

数据处理

1.使用决策树模型进行分类,建立分类模型

2.取两年数据,用第二年的实际值来判定是否划分MC,如果第二年月均大于500,标记Y,否则标记N

3.特征值取第一年的发件行为数据,包括有发件月数,平均每个月票数spm,平均每票重量kps,平均每公斤卖价rpk

模型验证与调优

1.随机取1/10作为验证,9/10建立模型

2.预测评估模型

R语言

使用R语言的rpart包中的rpart函数,基于CART算法的分类回归树模型

用prune剪枝

用predict进行预测

你可能感兴趣的:(决策树 - 客户划拨研究)