第十六章回归分析：建立模型

参考书目为安德森的《商务与经济统计》，以下为个人的学习总结，如果有错误欢迎指正。有需要本书pdf的，链接在本文末尾。（仅限个人学习使用，请勿牟利）

第十六章回归分析：建立模型

16.1 一般线性模型

对于一个应变量y和k个自变量，我们希望建立估计的回归方程
一般线性模型：

这里每个自编两都是的函数。当然也可以多个对应一个自变量

16.1.1 模拟曲线关系

举例：Reynolds希望调研销售代表工作年限和销售数量之间的关系。如下图：

image

用简单一阶模型得到估计回归方程：
如下图所示，尽管这个线性关系是显著的，R-sq也能解释大部分变异。然而标准化残差图启发我们，仍然需要一个曲线关系。

image

为了说明这个曲线关系：我们令得到模型：(二阶模型)
我们需要手动增加一列数据为，得到：

image

根据残差图，和计算机的输出，这个模型也是显著的。使用一般线性模型。

16.1.2 交互作用

如果原始数据包含和，则在一般线性模型中：，为了在二阶模型中说明两个变量共同作用产生的潜在影响，我们增加。这个影响被称为交互作用。

举例：Tyler认为对销售量起最大影响的两个因素是单价和广告费。设置单价2、2.5、3；广告费50000和100000美元。

image

建立估计的回归方程：

一般线性模型：
分别用来取代
利用Minitab得到：

image

从计算机的输出可以看到总体F检验的p-值是0.000，PriceAdv的t检验p-值也是0.000。
结论：在已知价格和广告费的线性影响下，交互作用是显著的；广告费对销售量的影响依赖于产品销售价格。

16.1.3 涉及应变量的变换

前面讲了自变量的变换，现在我们来介绍应变量的变换。先看例子的数据：

image

通过散点图，我们判断存在负的线性关系。利用简单的一阶模型得到：（MPG为英里/加仑额定值，结果p-值0.000，R-Sq=93.5%）

但是我们看到标准化残差图，随着MPG增加，的变异性也开始增加。这不是我们想要的水平带状图，而是一个楔形图。这种图被认为是非常数方差的征兆。

image

如何修正非常数方差的问题呢？通常对应变量做一个变换。比如给应变量取对数（ln,lg）或者取倒数。我们给MPG取ln对数，标记为LogeMPG。得到：

image

具体取对数（选哪个对数），还是倒数要实际试试。

16.1.4 内线性的非线性模型

当参数()的幂次超过一次的模型被称为非线性模型。这种指数模型一般变换为如下的一般线性模型：

例如：销售收入y依赖于广告费用x。

指数模型：随着x增加是按照1.2的比例增加的
取对数：
相当于：

我们可以先计算。然后代入x，求出对应的。的反对数就是我们要求的y的预测值。（这里看不懂怎么倒回去的）

16.2 确定什么时候增加或删除变量

本节介绍使用F检验来确定，给一个多元回归模型中增加变量，所得到的误差平方和减少的量。
例子：（来源15章）
Butler运输公司，使用行驶里程()和运送次数()来估计行驶时间。

只有一个变量： SSE=8.029
有两个变量： SSE=2.299

我们看到SSE减少了，但我们希望知道这个减少是否显著。

F检验的分子：
分子表示：自变量每增加一个单位误差平方和的减少的度量。
F检验的分母：
分母是包括全部自变量的模型的均方误差p为自变量个数。
F=
F检验的自由度：
- 分子：增加到模型中的自变量个数
- 分母：n-p-1

经过计算：p-值小于0.05，所以拒绝

这里部分情况，t检验和F检验可以混用，这里就不说了。

16.2.1 一般情形

在含有q个自变量得多元回归中：（q
自变量增加后：
假设：
- 这里当新增参数都为0时，则认为s这些新增得自变量影响不显著。
自由度：分子（p-q），分母（n-p-1）
当的上侧面积小于0.05时，则可以拒绝认为新增自变量是显著的。

16.2.2 p-值的应用

p-值可以用计算机算。并且F可以转换为：

image

16.3 大型问题的分析

下面的Cravens数据，我们想探究Sales的影响因素，给到了下边八个自变量。

image

我们首先得到相关矩阵，看到各个变量间的相关系数。

image

第一步：观察相关矩阵
我们看到Time和Accounts的相关系数0.758>0.7，所以尽可能只选择这两个其中1个自变量。（多了不会对模型增加更多的解释能力，因为多重共线性可能对估计结果产生影响）。另外我们看到Accounts和Sales的相关系数为0.754，相关系数的平方为判定系数，则Accounts能解释Sales中 %的变异性。

第二步：选择所有自变量建立估计的回归方程
我们尝试建立8个自变量的多元回归模型，其修正判定系数(Rsq(adj))=88.3%

image

第三步：选择p-值显著的变量建立估计的回归方程
我们看到仅有Poten、AdvExp和Share的p-值是显著的。所以我们仅用这3个自变量来计算模型。

image

总结：当面对8个变量时，如果选择1个，对应有8个单变量估计的回归方程；如果选择2个，对应有个估计的回归方程，等等。总计：255个估计的回归方程。我们可以使用计算机，但是也挺难算的。所以下节介绍几个变量选择的方法。

16.4 变量选择方法

下面4个子标题就是要介绍的选择方法，前三种是反复迭代的方法，每一步只增加或删除一个自变量，并对新的回归模型进行评价。最后一种（最佳子集回归）不是单变量一次性方法，需要对包含不同的自变量子集的回归模型进行凭家。
我们利用F统计量计算得到，通过不断地增加和减少自变量寻求最佳选择。

16.4.1 逐步回归

要求(防止一个步骤中一个变量先被删除，又重新进入)

Alpha to remove：对每个自变量F计算对应的p-值，如果p-值>Alpha to remove，则被删除。并开始新的一步。
Alpha to enter：如果没有自变量能从模型种被删除，那么回归方法将试图使零一个自变量进入模型，首先对没有在模型中的每一个自变量计算F统计量和对应的p-值。如果自变量的p-值Alpha to enter，则具有最小p-值得自变量将进入模型。

按照这种方式将逐步回归过程继续进行下去，直到没有一个自变量能从模型种被删除，或者没有一个自变量能被增加到模型上为止。

image

综上所述：先删除自变量，再增加自变量。直到既不能删除也不能增加。

16.4.2 前向选择

从没有自变量开始，和逐步回归中Alpha to enter步骤一样的方法判断自变量是否应该增加。增加后不再删除，当不在模型中得每一个自变量的p-值都大于Alpha to enter时，则前向选择结束。

16.4.3 后向消元

和前向选择相反，先包含所有自变量。和逐步回归中Alpha to remove步骤一样的方法判断自变量是否应该删除。删除后不再增加。当模型中自变量的p-值没有一个大于Alpha to enter时，则后向消元结束。

16.4.4 最佳子集回归

image

上图右上角是八个自变量，竖着看。
上图的输出中，识别出两个最佳单变量估计的回归方程，两个最佳的两变量估计的回归方程，两个最佳的三变量回归方程，等等。我们通过看R-sq(adj)来选择自变量，如果差不太多，一般选择自变量少的更受人喜欢。

16.4.5 作出最终的选择

image

从修正判定系数来看，我们愿意选择6，但是如果其中poten和share难以度量，我们可以退而求其次选择2，也节省了我们度量的成本。

补充：

可以令作为新的变量加入到模型中，来表示自变量交互作用

16.5 实验设计的多元回归方法

在第十三章中，Chemitech公司的完全随机化涉及

image

这里有三种方法，我们需要定义虚拟变量。k个不同的水平处理，需要k-1个虚拟变量。Chemitech公司案例中虚拟变量设为A、B。即

image

输入数据：

image

得到结果：

image

从估计的回归方程得到的估计值和平均值是一致的。接下来我们利用多元回归分析分析的输出，对这三种装配方法生产数量平均值之间的区别，进行ANOVA检验。如果没区别则对应的
通过代入虚拟变量，,,，观察后做出假设（此时三种方法的E(y)相等）
求解出F如上图所示F=9.18，p-值=0.004。因此我们拒绝认为不全等于0，且两个参数的p-值也可以拒绝,，因此可以得到三种方法两两各不相同。

16.6 自相关性和杜宾-瓦特森检验

现实中很多数据是按照时间顺序采集的，是在时期t的值，而本身又常常依赖y以前的值。我们称在数据中存在的自相关性（序列相关）。
例如：

y依赖于t-1时起的值，我们称数据中存在一阶自相关性。
y依赖于t-2时起的值，我们称数据中存在二阶自相关性。

回归模型假定误差项是独立的，但在数据存在自相关性时违背了这一假定。一阶自相关性：t时期的依赖于t-1时期的。

image

如何利用杜宾-瓦特森统计量来检测一阶自相关性。假设其中p的绝对值小于1。是平均值为0、方差为的独立的正态分布的随机变量。

如果p为0则不存在自相关性，
如果p>0则存在正自相关性
如果p<0则存在负自相关性

杜宾-瓦特森检验统计量：
其中表示第个残差。并且d的取值介于0~4。根据上面的图我们可以知道：

当残差的相邻值彼此近，则d就小，意味着正自相关性
当残差的相邻值彼此远，则d就大，意味着负自相关性

假设：

原假设：不存在自相关性
备择假设：
- 检验正自相关性：
- 检验负自相关性：
- 双侧检验：

image

为下界，为上界。结论判断如下：

正自相关性检验：
- ，存在正自相关性
- ，不能确定是否存在正自相关性
- ，无正自相关性。

其他检验如下图所示：

image

如果显著的自相关性被识别出来，怎么做？

考虑是否遗漏了重要的自变量，并且这些自变量会产生时序的影响。
如果没找到这样的自变量，引入一个观测次数的度量作为新的自变量。
如果还不起作用，可以常吃对自变量、应变量进行变换。

注意：杜宾-瓦特森检验的样本容量，许多统计学家认为至少应该为50。

链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App，操作更方便哦

第十六章 回归分析：建立模型