spssmoderler线性回归分析实例

一、首先,对回归分析的概念有一个清楚地认知

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。

按因变量是否连续又可分为线性回归(因变量为连续变量)和逻辑回归(因变量为逻辑变量),今天主要讲的是线性回归在spssmoderler中的实现步骤。

二、下面对线性回归方程及一些概念进行一些大致的解析:

1、多元线性回归可表示为Y=a+b1*X +b2*X2+b3*x3+...+bn*Xn+ e,其中a表示截距,b表示直线的斜率,e是误差项。回归方程拟合优度判定系数 R²取值为(0,1)越接近1,表示拟合度越好。

2、回归方程的显著性检验。(F检验)

回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为:

  F=\frac{\sum(\hat{y}-\bar{y})^2/k}{\sum(y-\hat{y})^2/n-k-1}

  =\frac{R^2/k}{(1-R^2)/n-k-1}

  根据给定的显著水平a=0.05,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著;F < Fa,则回归方程无显著意义,回归效果不显著。或者根据显著性水平P值判定,如果p<=a,拒绝零假设,回归方程有显著意义;如果p>a,则回归方程线性不显著。

3、回归系数的显著性检验。(T检验)

  在一元线性回归中,回归系数显著性检验(t检验)与回归方程的显著性检验(F检验)是等价的,但在多元线性回归中,这个等价不成立。t检验是分别检验回归模型中各个回归系数是否具有显著性,以便使模型中只保留那些对因变量有显著影响的因素。检验时先计算统计量ti;然后根据给定的显著水平a,自由度n-k-1查t分布表,得临界值tata / 2,t > t − ata/ 2,则回归系数bi与0有显著关异,反之,则与0无显著差异

同理,也可根据p值检验,p<=a,拒绝零假设,回归方程线性显著,反之则线性不显著。

二、接下来就根据实例实现回归分析模型的建立,这是一个汽车各项性能和指标与价格关系的数据表。如图

spssmoderler线性回归分析实例_第1张图片

1、确定自变量和因变量。我们的目的是预测汽车各项性能和价格之间的关系,自变量是汽车各项性能,因变量则为汽车价格。

spssmoderler线性回归分析实例_第2张图片

这里将价格设为目标变量,因为线性回归要求输入和目标变量要均为连续值,下面对产地和类型进行重新分类并命名为国内和卡车。

spssmoderler线性回归分析实例_第3张图片

接下来还需要删除原字段并对字段进行重排,如图

spssmoderler线性回归分析实例_第4张图片

2、数据处理完毕,加下来就是建立回归分析模型。选择建模——预测回归分析模型:

spssmoderler线性回归分析实例_第5张图片

这里之前类型中已经定义自变量和因变量,直接选择预定义。

spssmoderler线性回归分析实例_第6张图片

这里都按默认打钩,构建方法有四种,进入法就是将所有的输入变量都导入方程,逐步法是逐个将输入变量代入方程进行评估,后退法是现将所有输入变量导入方程,再逐步删除对模型目标变量影响较小的输入变量,直到模型效果最好,前进法则是逐一将对模型目标变量影响大的输入变量添加到方程中,直到模型效果最好。

spssmoderler线性回归分析实例_第7张图片

接下来这里选择专家,仅使用完整记录,如果表中有缺失值则会被过滤。输出这里是指选择输出选项,一般默认,根据需求打钩选择。

spssmoderler线性回归分析实例_第8张图片

分析这里选择预测变量重要性。接下来运行输出模型。

3、分析模型结果。

spssmoderler线性回归分析实例_第9张图片

 模型这里可以看到输入变量对目标变量的重要性比较。马力>空车重量>燃料箱重量>轴距,其他属性对价格的影响几乎为零

spssmoderler线性回归分析实例_第10张图片   

摘要这里是对模型构建过程的描述

spssmoderler线性回归分析实例_第11张图片

spssmoderler线性回归分析实例_第12张图片

高级选项这里看到模型预测的结果,需要注意的是R²=0.888,说明拟合度很好,p值小于0.05,说明假设不成立,线性显著,然后再看T检验,各输入变量对应的的t值均不同,p<=0.05的,说明线性显著,即输入变量对价格影响大,p>0.05,线性不显著。

我们还可以对模型进行调整,即对输入变量选取不同的输入方法,以选择逐步法为例

spssmoderler线性回归分析实例_第13张图片

spssmoderler线性回归分析实例_第14张图片

spssmoderler线性回归分析实例_第15张图片

从上图可以看到逐步法构建模型的过程,即将输入变量一个个加入方程,直到模型预测效果最好。类似的前进法、后退法实现步骤相同,可以不断调整,对模型进行比较,直到模型效果最好。

以上就是我对线性回归在spssderler中的实现进行的总结,实现工具并不重要,我认为最重要的是要掌握回归分析的概念及模型实现步骤,并能对模型结果进行解读,分析,优化。

加油吧,皮卡丘!



你可能感兴趣的:(spssmoderler线性回归分析实例)