SPSS MODELER

目标变量为连续性变量的模型就是回归模型,目标为分类变量的为分类模型

回归和相关都不能说明存在因果关系!!!!

回归模型

一元线性回归

一个自变量与一个因变量

分析变量建立模型--估计系数解出方程--检验系数确认有效--拟合优度检验(模型有效度)--进行预测

建立散点图观看趋势,使用“回归节点”

字段:使用预定义角色--类型节点中的字段信息作为模型角色定义

定制字段分配--手动设置

权重字段---正数就可以,像频率一样

模型:使用分区数据--提前建立好分区的才行

为每个分割建立模型--某字段角色定义为拆分,那么会为拆分字段进行模型建立,拆分成几个部分就建立几个模型

方法---线性回归建立的方法

1. Enter(进入法)

为默认选项,不管好坏,变量统统进入模型。没有进行变量的筛选。

2. Remove(移除法)

先把变量统统纳入。然后强制规定移除哪几个变量。往往是先enter,然后remove。经常与其他方法合用。

3. Forward selection(前进法)

前进法是由少到多引入变量的方法。例如一个和尚可以挑水喝,引入另外一个和尚可以抬水喝,再引入一个和尚就没水喝了。所以引入两个和尚(变量)就可以结束了。引入第三个和尚(变量)对于模型来说没有贡献了。所以前进法主要是引入的重要性比较大的变量。

4. Backward elimination(后退法)

后退法刚刚好是前进法的反向。先把变量纳入。然后按照一定的规则,一个一个将贡献小的变量剔除。直到再剔除变量会严重影响模型效能。后退法的优点是考虑了自变量的组合作用,但是当自变量数目较多或者自变量间高度相关时,可能得不出正确的结论。

5. Stepwise(逐步回归法)

逐步回归则是结合了前进法和后退法。其实本质是前进法。先引入一个变量,然后再引入另外一个变量,评估整体模型的效能以及第一个变量的统计学意义,如果第一个变量变得没有统计学意义,就将第一个变量删除。如此反复。直到没有新的有统计学意义的变量纳入,以及没有无统计学意义的变量删除。 逐步回归法结合了前进法和后退法的优点,因此被作为自变量筛选的一种常用的方法。

在等式中包含常量:包不包括常量(误差等数据)

分析结果:

金色钻石模型块里封装的模型结果,点击后可以查看结果


多元线性回归

因变量与多个自变量

散点图寻找关系,使用“回归节点”。

模型:专家模式可以调整参数,简单模型将是默认选项

缺失值:取消该选项,将会把缺失记录也纳入模型分析,计算可能会出现问题

异常值容差:容忍度阀值设置,默认为0.0001.小于此数将不会被纳入模型

以及方法的选择:步进等

输出常用统计量的选择

其中每项输出内容如下。
模型拟合度:模型拟合度分析结果,包括两种类型。拟合优度检验,对应的分析结果是Model Summary表。模型显著性检验,对应的分析结果是ANOVA方差分析表。
R方变化:模型构建过程中决定系数R²的变化值,输出结果将被增加到Model Summary表。
选择条件:模型构建过程中,每一步模型信息内容的统计量。这些统计量包括Akaike信息标准、Amemiya预测标准、Mallows预测标准和SBC标准。这些统计量越小,模型效果越好,输出结果将被增加到Model Summary表。
描述性:输出自变量及因变量的描述性统计指标,包括平均值、标准差以及记录数量,对应的分析结果是Descriptive Statistics表。另外,描述性也将输出系数相关矩阵,对应的分析结果是Correlations表。
部分相关和偏相关性:输出偏相关系数及部分相关系数。相比于普通的相关系数,偏相关系数及部分相关系数是刨除其他自变量影响的前提下,某个自变量单独对因变量的影响的评估,输出结果将被增加到Cofficients系数表。
回归系数:输出回归系数的估计值及对应t检验结果,对应的分析结果是Cofficients系数表。
置信度区间:输出回归系数的95%置信区间,输出结果将被增加到Cofficients系数表。
> 协方差矩阵:输出自变量的协方差矩阵,对应的分析结果是CofficientCorrelations表。
> 排除字段:输出在模型构建过程中没有被选择的自变量的相关统计量,包括剔除前对应的回归系数、t检验统计量、p值、偏相关系数以及容忍度,对应的分析结果是Excluded Variables表。
残差:输出预测值、残差、标准化预测值及标准差残差的统计量。统计量包括最小值、最大值、平均值、标准差和记录数量,对应的分析结果是ResidualsStatistics表。
共线性诊断:在多元回归分析中,如果自变量之间存在较强的相关关系,就会导致回归系数的估计值方差增加,从而使得预测精度下降,这个问题称为多种共线性。通过共线性诊断,回归模型将输出方差膨胀因子(VIF)以及容忍度。一般来说,当VIF≥10或容忍度≤0.1时,认为模型存在多重共线性,多重共线性的输出结果将被增加到Cofficients系数表。另外,此选项也会输出特征根及条件数的多重共线性判别结果,对应的分析结果是Collinearity Diagnostics表。
Durbin-Watson:在回归分析中,自相关也会为模型带来一系列问题。要检测自相关性可以使用DW检验,一般来说当DW值接近于2时,可以认为模型不存在序列自相关,DW检验的输出结果将被添加到Model Summary表。


你可能感兴趣的:(SPSS,Modeler,数据分析)