预测商业决策带来的收益增长

预测商业决策带来的收益增长

跨行业数据挖掘标准流程(CRISP-DM)
CRISP-DM 步骤

  • 业务理解 Business Issue Understanding
  • 数据理解 Data Understanding
  • 数据准备 Data Preparation
  • 分析/建模 Analysis/Modeling
  • 模型评估 Validation
  • 模型发布/可视化 Presentation/Visualization

业务问题

一家制造和出售高端家居商品的公司去年向客户寄送了第一批产品目录册(catalog),今年准备在接下来的几个月内再向外寄送一批产品目录册。公司今年的邮寄名单中新增了 250 名客户,他们希望向这 250 个客户寄送产品目录册。

  • 预测这 250 个新客户预期会带来的利润。如果这些新客户带来的预期利润超过一万美元,那么管理层就会向他们寄送产品目录册。

详细信息

  • 印刷和寄送每本产品目录册的成本是6.5美元。
  • 通过产品目录册出售的所有产品的平均毛利率(价格减去成本)是 50%。

数据源介绍

  • 公司2300位顾客信息
    预测商业决策带来的收益增长_第1张图片
  • 公司新增250位顾客信息
    预测商业决策带来的收益增长_第2张图片
    其中:
  • Score_No:顾客不会对生产目录有所反应且不会购买产品的概率。
  • Score_Yes:顾客会对生产目录有所反应且进行购买的概率。
  • 我们想计算 250 位顾客的预计销售额以得出预计利润。这意味着要乘以顾客购买产品的概率。例如,一位顾客想向我们订购价值为 $450 的货品。这位顾客有 30% 的概率(即Score_Yes变量所代表的概率)会真的从我们这里购买,我们可以预测销售额为 $450 x 30% = $135。

理解业务和数据

1.需要做出的决策:是否给250名新顾客邮寄公司的产品目录册
2.选择分析方法:
预测商业决策带来的收益增长_第3张图片
本次要分析的是一个数值连续且数据充足的预测性问题,所以根据上图尝试使用线性回归模型解决问题。

分析、建模和验证

1.要预测每个顾客的利润即首先要根据2300位顾客的数据建立线性回归模型预测每位顾客Avg_Sale(平均销量)的值。
回归方程的形式:
Y = Intercept + b1 * Variable_1 + b2 * Variable_2 + b3 * Variable_3……
2.绘制散点图检验各个字段与Avg_Sale是否存在线性关系

  • 预测变量的选择
    根据ZIP、Store Number、Responded to Last Catalog、Avg Num Products Purchased 和 Years as Customer
    散点图的趋势和R平方的数值来决定做为预测变量是否合适
    —ZIP
    预测商业决策带来的收益增长_第4张图片
    基于2375位顾客的数据,根据趋势线和R平方的值约等于0,可以得出ZIP与平均销售额没有显著的关系
    —Store Number
    预测商业决策带来的收益增长_第5张图片
    基于2375位顾客的数据,根据趋势线和R平方的值约等于0,可以得出Store Number与平均销售额没有显著的关系
    –Responded to Last Catalog
    预测商业决策带来的收益增长_第6张图片
    基于2375位顾客的数据,根据趋势线和R平方的值约等于0,可以得出Responded to Last Catalog与平均销售额没有显著的关系
    –Years as Customer
    预测商业决策带来的收益增长_第7张图片
    基于2375位顾客的数据,根据趋势线和R平方的值约等于0,可以得出Years as Customer与平均销售额没有显著的关系
    –Avg Num Products Purchased
    预测商业决策带来的收益增长_第8张图片
    基于2375位顾客的数据,根据趋势线和R平方的值为0.7323接近于1说明此变量能很好地解释目标变量,可以得出Avg Num Products Purchased与平均销售额有显著的关系,所以选择此变量作为预测变量。
    –Customer Segment
    以Only Credit Card为基本条件,创建虚拟变量
    预测商业决策带来的收益增长_第9张图片
    对Customer Segment拟合单独的线性回归结果为:
    预测商业决策带来的收益增长_第10张图片
    基于2375顾客的数据,根据R平方的值为0.702367>0.7说明此变量能很好的解释目标变量,可以看出Customer Segment与平均销售额有显著的关系,所以应选择此变量做为预测变量
  • 建模
    选择Avg Num Products Purchased,Customer Segment做为预测变量,并将基本条件设为Only Credit Card作回归分析

预测商业决策带来的收益增长_第11张图片
通过结果可以看出:R Square=0.836878>0.7,Adjusted R Square=0.836602,P-value非常的接近0,说明预测变量对目标变量的影响显著,所以可以做为预测目标变量的模型
最佳的线性回归方程为:
Y=303.46+66.98*Avg Num Products Purchased -245.42(If type:Store Mailing List)+281.84(If type:Loyatly Club and Credit Card)-149.36(If type:Loyalty Club Only)

  • 将此方程代入新增顾客表中计算出每一位顾客的对应销售额,然后计算出总销售额为47226$

  • 结论
    根据销售额可以计算出预期的利润为:
    47226*(1-50%)-6.5*250=21988>10000
    所以公司应该向这250名顾客邮寄宣传册

你可能感兴趣的:(数据分析)