多元线性回归-linear regression(2)

我们之前讲了一元的线性回归,下面我们讲讲多元线性回归。多元线性回归的定义是考查一个变量和其余多个变量之间的关系,如果是同时考查p个因变量与m个自变量之间的依赖关系,称为多因变量的多元回归问题。

和一元线性回归有相同的定义,多元线性回归中,一个因变量开始由多个自变量来决定,所以它的方程的形式就变成了y=beta_0+beta_1x_1+...beta_px_p+\epsilon,由此我们可以得到理论回归方程,E(y)=beta_0+beta_1x_1+...beta_px_p

因为多元线性回归一个观测值就不再是一个标量而是一个向量了,所以可能自变量的观测值就变成了 (1,x11,...x1p),(1,x21,...x2p)... ,而对应的因变量的观测值不变,还是(y1,...yp) ,因此我们把这些观测值每一行每一行的叠加起来就成为了一个向量或者矩阵。这里我们用C指代x矩阵,Y指代y矩阵,beta指代系数矩阵,\epsilon指代残差。那么这个时候的多元线性回归的表示就变成了y=beta*x+\epsilon。

这个多元线性回归有个假设,残差符合正态分布,并且均值为0。

参数向量\beta的最小二乘估计 

假设b是参数\beta的最小二乘估计,就是说b可以使得误差平方和Q(b)达到最小,Q(b)=minQ(\beta),其中Q(\beta)=\sum\epsilon^2=(Y-C\beta)'(Y-C\beta)。这个时候,b=(C'C)^(-1)C'Y是\beta的最小二乘估计,显然,b是正规方程C'C\beta=C'Y的解。

我们称H=(C'C)^(-1)C'为帽子矩阵,此时的残差向量是\epsilon=Y-\hat(y)=(I-H)Y。

这里有一些结论,b是\beta的最小方差无偏估计量,b和\epsilon服从正态分布。

之后我们同样要检验回归方程和回归系数的显著性。回归方程用F检验,回归系数用T检验。

F检验的统计量是F=MMS/MSE;T检验的统计量是T=\beta_i/\sqrt(l^{ii})/\sqrt(Q/(n-m-1))

给定显著性水平\alpha,由样本观测数据计算Q,P以及检验统计量的值,并且计算显著性概率值(p):p=P{F>=f_i}。如果p<\alpha,否定假设H_0,即是认为x_i对y的作用是显著的,否则认为H_0相容。

我们看一个多元回归的例子(这个例子取自高惠璇的应用多元统计分析一书)。

例 1 :假设某种水泥在凝固时所释放的热量Y和水泥中下列四种化学成分相关:

x1-3CaO.Al2O3的成分

x2-CaO.SIO2的成分

x3-4CaO.Al2O3.Fe2O3的成分

x4-2CaO.SIO2的成分

总共观测了13组数据,求Y和x的回归方程,并且对该回归方程和各个回归系数进行检验。

水泥的数据:

No       x1         x2         x3         x4            Y

 1.0000 7.0000 26.0000 6.0000 60.0000 78.5000

    2.0000    1.0000  29.0000  15.0000  52.0000  74.3000

    3.0000  11.0000  56.0000    8.0000  20.0000  104.3000

    4.0000  11.0000  31.0000    8.0000  47.0000  87.6000

    5.0000    7.0000  52.0000    6.0000  33.0000  95.9000

    6.0000  11.0000  55.0000    9.0000  22.0000  109.2000

    7.0000    3.0000  71.0000  17.0000    6.0000  102.7000

    8.0000    1.0000  31.0000  22.0000  44.0000  72.5000

    9.0000    2.0000  54.0000  18.0000  22.0000  93.1000

  10.0000  21.0000  47.0000    4.0000  26.0000  115.9000

  11.0000    1.0000  40.0000  23.0000  34.0000  83.8000

  12.0000  11.0000  66.0000    9.0000  12.0000  113.3000

  13.0000  10.0000  68.0000    8.0000  12.0000  109.4000

解:回归方程如下hat(Y)=62.4054+1.5511x1+0.5102x2+0.1019x3-0.1441x4

回归方程的显著性检验结果:由方差分析可以得到平方和的分解式是2715.76308=2667.89944+47.86364

均方误差是MSE,它是模型中误差方差\sigma的估计。检验统计量F的值是111.479,p值是0.0001,这表示拟合是高度显著的,该模型解释了这组数据总变差中的主要部分。

回归系数的显著性检验结果:该输出中参数估计不仅给出了回归方程的系数而且给出了检验的结果,表明了四个自变量之间存在很强的相关性,应该从中删除不重要的自变量,比如x3。

下面我们再看一个预测房屋价格的例子。我们使用一个包含21个变量测量值和21613个房屋销售相关的观测值的数据集。首先,通过删除任何缺失值来清理数据,并进行探索性分析以确定变量分布、潜在异常值和共线性。其次,以住宅销售价格为结果变量,以房地产特征为自变量,建立了一般线性回归模型。下一个步骤是使用子集选择方法来选择房屋销售价格的最佳预测因子。我们度量了包括Akaike信息准则(AIC)、贝叶斯信息准则(BIC)和均方根误差(RMSE)选择并验证了最佳模型。该模型通过去除异常值来进一步改进,来开发我们的最终模型 (待修)。

你可能感兴趣的:(多元线性回归-linear regression(2))