SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析

教程传送门:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化
SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

1、数据介绍

本节教程中将利用SPSS Modeler18.0对电信客户流失数据进行逻辑回归建模,分析客户流失原因,所使用的数据集是SPSS Modeler18.0自带数据集《telo.sav》,本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的朋友可以直接下载。
本次所用数据与教程(一)中相同,数据结构如下:
在这里插入图片描述
该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。

2、操作步骤

2.1模型构建

在SPSS Modeler18.0软件中构建如下数据流:
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第1张图片
具体步骤为:
首先,在【源】节点中选择待处理的源数据,连接到【字段选项】节点中的【类型】节点,并将每个变量的测量属性设置好,指定每个变量的角色,本例中的【目标】角色为“chun”,其为0-1变量。【角色】为【输入】的变量,可以理解为模型的自变量,【目标】理解为因变量。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第2张图片
其次,过滤不需要的字段。本例中只分析用户的原始数据,对于经过将原始数据处理过的带“log”的字段进行过滤。操作为:将【字段选项】中的【过滤器】节点拖入构建区,与【类别】节点连接,在【过滤器】中带有×的字段即被过滤的字段,在后续的处理中这些字段不需要使用。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第3张图片
接着,在【字段】选项卡中,可以直接使用在前面类型中设置好的角色,也可以按照自己需要【使用定制字段分配】,本例使用【预定义角色】。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第4张图片本例的因变量为二分类变量,在【模型】选项卡中,选择【二项式过程】以及【向前进步法】构建模型。对于具有不同类型的分类型自变量而言,比如本例中的“ed”“region”等,选择将其转化成哑变量,在【对比】中选择哑变量,【基准类别】选择第一类。在【分析】选项卡中购选【计算预测变量的重要性】。
**关于哑变量的解释:某些分类型的自变量,比如地区“region”、性别“gender”等,虽然在统计时以1、2、3分别表示亚洲、欧洲、非洲,以1、0分别表示男、女,但实际上这些类型之间并无大小之分,直接以数值代入模型即会把数值本身的大小因素代入模型,引起模型出现错误的解释。因此需要对分类型变量进行重新编码,使得不同的属性值只代表类型不同,消除大小影响。
例如对于变量region的哑变量设置如下:region共有3个值,所以选取设置3-1=2个哑变量region(1)和region(2),将第一个作为基准用于参考,剩下两个分别在region(1)和region(2)上与基准相差1,以反映地区间的差异。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第5张图片
这种哑变量的设置方式就是SPSS Modeler逻辑回归的对比器,设置方法。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第6张图片
最后,点击运行,得到本模逻辑回归结果,在构建区为橙色钻石形状,双击将其打开。在逻辑回归结果【模型】选项卡下,可以看到不同变量的重要性,即【预测变量的重要性】,这里的预测变量指的就是自变量。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第7张图片输出结果的【摘要】选项卡里可以看到一些关于模型的汇总信息,【高级】选项卡里输出的是整个模型的结果,输出的表中包含模型的拟合效果,自变量的系数,显著性情况等,需要对表进行详细分析。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第8张图片
在逻辑回归结果的后面,添加【输出】节点中的【分析】节点,点击运行,查看模型在所有样本上的正确性。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第9张图片
在逻辑回归结果中添加【输出】节点中的【表格】节点,点击运行后,可以看到表格中数据不仅包括原有数据,还多了以$开头的模型预测结果以及出现该结果的概率。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第10张图片

2.2结果分析

SPSS Modeler18.0逻辑回归模型结果的【高级】选项卡中输出的表格信息,是结果分析的重点,分析内容包括:数据中各变量信息;模型的显著性检验;模型的拟合优度;模型的准确率;模型中自变量的系数、显著性、OR值(占优比)的解释;模型的logit方程。
例:在模型结果的【高级】选项卡中,首先是因变量与自变量的编码,因变量用0与1表示流失与否,自变量设置成哑变量。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第11张图片
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第12张图片
分类表是对建模前样本信息进行统计,本例中未流失用户占比为72.6。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第13张图片
模型最终的显著性分析见下表,在Model一栏中,P值(Sig)小于显著性水平0.05,认为模型具有显著性。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第14张图片
下表是模型中保留变量的统计信息,这些变量对于客户流失与否有关。其中,B值为变量在logit方程中的系数,Sig为P值表示显著性,Exp(B)为OR值(优势比)。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第15张图片
根据B值,可以写出logit方程为:
在这里插入图片描述
每个变量的对于客户流失的解释需要明确的是:逻辑回归所捕获的某个自变量的效应是以其他变量为条件的(即,其他变量保持不变)。变量的解释重点看是OR值:Exp(B),该值表示的是表示某一因素内该类别是其相应参考类别具有某种倾向性的倍数。
比如:变量equip(1)的OR值为2.141,表示在其他因素不变的情况下,equip值为1的客户流失的可能性是equip为0的客户的2.141倍。
对于连续性变量如tenure,其OR值为0.964,表示在其他因素不变的情况下,tenure每提升单位数值,客户流失率的可能性会乘以0.964倍,与流失的可能性是负相关。其他变量的解释可以参照以上的解释。
下面这张表中变量是被模型所剔除的变量,认为这些变量与客户流失之间没有显著性关系。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第16张图片
最后的表是对模型在每一步的统计信息,可以看到每一步模型中的自由度、显著性、分类正确率、增加的变量。
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析_第17张图片

3、小结

本节教程中,主要讲解了利用SPSS Modeler18.0进行逻辑回归分析建模,详细阐述了从数据过滤到模型参数设置的步骤,并对模型输出结果进行了详细解释。

你可能感兴趣的:(SPSS,Modeler)