统计之 - 回归分析(Regression Analysis)

回归分析regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,一般地其目标变量是数值型的连续变量。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

回归分析(英语:Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。

定义

回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。

回归分析的主要内容为:

  参数估计从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法

  假设检验:对这些关系式的可信程度进行检验。

  变量显著性:在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。

  预测:利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。

回归分析研究的主要问题是:

1确定YX间的定量关系表达式,这种表达式称为回归方程

2对求得的回归方程的可信度进行检验

3判断自变量X对因变量Y有无影响(R2所表示的确定性系数?)

4利用所求得的回归方程进行预测和控制

应用

相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。

一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图83的散点图,可以建立下面的线性关系:Y=A+BX+§

式中:AB为待定参数,A为回归直线的截距(intercept)B为回归直线的斜率(slope),表示X变化一个单位时,Y的平均变化情况;§为依赖于用户满意度的随机误差项。

对于经验回归方程:y=0.857+0.836x

回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。

上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的统计学书籍。此外,在SPSS的结果输出里,还可以汇报R2F检验值和T检验值

  • R2又称为方程的确定性系数coefficient of determination),表示方程中变量XY的解释程度R2取值在01之间,越接近1,表明方程中XY的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比

  • F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以上,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性

  • 正如在上一点中提到的,T检验用来检验回归系数是否显著

在上面所示的例子中,各参数的意义如表82所示:

指标 显著性水平 意义
R2 0.89
“质量”解释了89%的“用户满意度”的变化程度
F 276.82 0.001 回归方程的线性关系显著
T 16.64 0.001 回归方程的系数显著


示例

我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:

用户满意度=0.008×形象+0.645×质量+0.221×价格

对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。

指标 显著性水平 意义
R2 0.89
质量形象解释了89%用户满意度的变化程度
F 248.53
回归方程的线性关系显著
T(形象) 0.00
形象变量对回归方程几乎没有贡献
T(质量) 13.93
质量对回归方程有很大贡献
T(价格) 5.00
价格对回归方程有很大贡献

 

从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以重新做“用户满意度”与“质量”、“价格”的回归方程如下:

满意度=0.645×质量+0.221×价格

用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为“形象”对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。

指标 显著性水平 意义
R2 0.89
质量形象解释了89%用户满意度的变化程度
F 374.69 0.001 回归方程的线性关系显著
T(质量) 15.15 0.001 质量对回归方程有很大贡献
T(价格) 5.06 0.001 价格对回归方程有很大贡献


你可能感兴趣的:(Analysis,Regression,回归分析)