多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第1张图片

在上篇文章中素言素语Sue:【R语言】Logistic回归——消费者点击广告的行为预测,我们使用R实现逻辑回归的案例,这篇作为姊妹篇,对同一案例使用SPSS工具来实现。

首先将数据导入SPSS,注意将Male和Click on Ad设置为名义变量,其他为度量变量。数据信息如下表所示:

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第2张图片

回归过程

SPSS操作过程:

  • 选择“分析”——“回归”——“二元Logistic回归”,将Clicked on Ad放入因变量,将自变量放入协变量;
  • 对协变量进行分类,点击右上角“分类“,将Male放入分类协变量,对比选择默认的“指示符”,参考类别默认为“最后一个”。

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第3张图片

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第4张图片

注意这里需要解释一下分类协变量,就要提到哑变量的概念。

当自变量为二分类或连续变量的时候,结果都很好解释;当自变量为多分类的时,比如race 1=白人,2=黑人,3=其他民族,并不意味着因变量随此顺序线性变化,若强行编码那就强行规定为等距变量了。因此,需要转化为哑变量.

每个哑变量只代表某两个级别或若干个级别间的差异。n个水平的自变量X,默认会产生n-1个哑变量,SPSS是以第n水平为参照水平。两个哑变量参数估计值反应了与参照水平的差异,估计值之差反应了其代表的变量的差异。

可选择多种分类对比方法:(参照水平组一般样本数不少于30到50例)

  • 默认“指示符对比”,参照水平为第一个或最后一个;
  • 有序分类变量可采用”差异对比“某水平与之前的所有水平进行比较,如果在某水平处系数变小且无统计学意义,说明到此影响达到停滞状态;
  • Helmert对比与上一个相反,是某水平与其后面各水平相比。
  • 重复对比:参照水平为”前一水平“
  • 多项式对比:仅适用于数值型分类变量,H0假设各水平是等距的,它们和LogitP(Logit变换后的P)的关系可能是n次方,模型依次用一个哑变量代表一个次方项,给出各检验结果。
  • 离差对比:每个水平和总体水平相比较,且此n个水平的回归系数的代数和为0

在保存里面,我们勾选预测值“概率”,因为在SPSS中,ROC不能直接生成,需要根据预测值进一步计算。最后点击确定就可以获得分析结果了。

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第5张图片

结果解读

结果中最主要的是这两张表,从分类表中,可以看出预测的准确率为97.2%(以0.5分界点);

从变量表中可以看出,除了Male之外,其余自变量系数都显著(sig<0)。关于系数的解释我们在上一篇R语言Logistic回归案例中已经说过了,这里不再赘述。

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第6张图片

计算ROC

SPSS操作:在“分析”-选择“ROC曲线图”,将上一步回归生成的预测变量放入检验变量,将Clicked on Ad放入状态变量,输出全部勾选。

生成一个带对角参考线的ROC曲线,曲线下的面积即AUC=0.992。说明预测性较好。

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第7张图片

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第8张图片

同时也可以输出曲线上的坐标点,可以根据左边点选择最佳概率分界点。一般认为,使(敏感度+特异性-1)的值最大的分界点,就是最佳概率分界点。

多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测_第9张图片

(此图较长,仅截图部分)

PS:第一时间获取数据分析学习最新文章,欢迎关注同名公众号:素言素语Sue

【SPSS】Logistic回归——消费者点击广告的行为预测​mp.weixin.qq.com

你可能感兴趣的:(多项logistic回归系数解释_【SPSS】Logistic回归——消费者点击广告的行为预测)