第十六章 回归分析:建立模型

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十六章 回归分析:建立模型

16.1 一般线性模型

对于一个应变量y和k个自变量,我们希望建立估计的回归方程
一般线性模型

这里每个自编两都是的函数。当然也可以多个对应一个自变量

16.1.1 模拟曲线关系

举例:Reynolds希望调研销售代表工作年限和销售数量之间的关系。如下图:


image

用简单一阶模型得到估计回归方程:
如下图所示,尽管这个线性关系是显著的,R-sq也能解释大部分变异。然而标准化残差图启发我们,仍然需要一个曲线关系。

image

为了说明这个曲线关系:我们令得到模型:(二阶模型)
我们需要手动增加一列数据为,得到:

image

image

根据残差图,和计算机的输出,这个模型也是显著的。使用一般线性模型。

16.1.2 交互作用

如果原始数据包含和,则在一般线性模型中:,为了在二阶模型中说明两个变量共同作用产生的潜在影响,我们增加。这个影响被称为交互作用

举例:Tyler认为对销售量起最大影响的两个因素是单价和广告费。设置单价2、2.5、3;广告费50000和100000美元。


image

image

建立估计的回归方程:

  • 一般线性模型:
  • 分别用来取代
  • 利用Minitab得到:
image

从计算机的输出可以看到总体F检验的p-值是0.000,PriceAdv的t检验p-值也是0.000。
结论:在已知价格和广告费的线性影响下,交互作用是显著的;广告费对销售量的影响依赖于产品销售价格。

16.1.3 涉及应变量的变换

前面讲了自变量的变换,现在我们来介绍应变量的变换。先看例子的数据:


image

image

通过散点图,我们判断存在负的线性关系。利用简单的一阶模型得到:(MPG为英里/加仑额定值,结果p-值0.000,R-Sq=93.5%)

但是我们看到标准化残差图,随着MPG增加,的变异性也开始增加。这不是我们想要的水平带状图,而是一个楔形图。这种图被认为是非常数方差的征兆。

image

如何修正非常数方差的问题呢?通常对应变量做一个变换。比如给应变量取对数(ln,lg)或者取倒数。我们给MPG取ln对数,标记为LogeMPG。得到:

image

具体取对数(选哪个对数),还是倒数要实际试试。

16.1.4 内线性的非线性模型

当参数()的幂次超过一次的模型被称为非线性模型。这种指数模型一般变换为如下的一般线性模型:

例如:销售收入y依赖于广告费用x。

  • 指数模型: 随着x增加是按照1.2的比例增加的
  • 取对数:
  • 相当于:

我们可以先计算。然后代入x,求出对应的。的反对数就是我们要求的y的预测值。(这里看不懂怎么倒回去的)

16.2 确定什么时候增加或删除变量

本节介绍使用F检验来确定,给一个多元回归模型中增加变量,所得到的误差平方和减少的量。
例子:(来源15章)
Butler运输公司,使用行驶里程()和运送次数()来估计行驶时间。

  • 只有一个变量: SSE=8.029
  • 有两个变量: SSE=2.299

我们看到SSE减少了,但我们希望知道这个减少是否显著。

  • F检验的分子:
  • 分子表示:自变量每增加一个单位误差平方和的减少的度量。
  • F检验的分母:
  • 分母是包括全部自变量的模型的均方误差p为自变量个数。
  • F=
  • F检验的自由度:
    • 分子:增加到模型中的自变量个数
    • 分母:n-p-1

经过计算:p-值小于0.05,所以拒绝

这里部分情况,t检验和F检验可以混用,这里就不说了。

16.2.1 一般情形

  • 在含有q个自变量得多元回归中:(q
  • 自变量增加后:
  • 假设:

    • 这里当新增参数都为0时,则认为s这些新增得自变量影响不显著。
  • 自由度:分子(p-q),分母(n-p-1)
  • 当的上侧面积小于0.05时,则可以拒绝认为新增自变量是显著的。

16.2.2 p-值的应用

p-值可以用计算机算。并且F可以转换为:

image

16.3 大型问题的分析

下面的Cravens数据,我们想探究Sales的影响因素,给到了下边八个自变量。


image

我们首先得到相关矩阵,看到各个变量间的相关系数。

image

第一步:观察相关矩阵
我们看到Time和Accounts的相关系数0.758>0.7,所以尽可能只选择这两个其中1个自变量。(多了不会对模型增加更多的解释能力,因为多重共线性可能对估计结果产生影响)。另外我们看到Accounts和Sales的相关系数为0.754,相关系数的平方为判定系数,则Accounts能解释Sales中 %的变异性。

第二步:选择所有自变量建立估计的回归方程
我们尝试建立8个自变量的多元回归模型,其修正判定系数(Rsq(adj))=88.3%


image

第三步:选择p-值显著的变量建立估计的回归方程
我们看到仅有Poten、AdvExp和Share的p-值是显著的。所以我们仅用这3个自变量来计算模型。


image

总结:当面对8个变量时,如果选择1个,对应有8个单变量估计的回归方程;如果选择2个,对应有个估计的回归方程,等等。总计:255个估计的回归方程。我们可以使用计算机,但是也挺难算的。所以下节介绍几个变量选择的方法。

16.4 变量选择方法

下面4个子标题就是要介绍的选择方法,前三种是反复迭代的方法,每一步只增加或删除一个自变量,并对新的回归模型进行评价。最后一种(最佳子集回归)不是单变量一次性方法,需要对包含不同的自变量子集的回归模型进行凭家。
我们利用F统计量计算得到,通过不断地增加和减少自变量寻求最佳选择。

16.4.1 逐步回归

要求(防止一个步骤中一个变量先被删除,又重新进入)

  • Alpha to remove:对每个自变量F计算对应的p-值,如果p-值>Alpha to remove,则被删除。并开始新的一步。
  • Alpha to enter:如果没有自变量能从模型种被删除,那么回归方法将试图使零一个自变量进入模型,首先对没有在模型中的每一个自变量计算F统计量和对应的p-值。如果自变量的p-值Alpha to enter,则具有最小p-值得自变量将进入模型。

按照这种方式将逐步回归过程继续进行下去,直到没有一个自变量能从模型种被删除,或者没有一个自变量能被增加到模型上为止。


image

综上所述:先删除自变量,再增加自变量。直到既不能删除也不能增加。

16.4.2 前向选择

从没有自变量开始,和逐步回归中Alpha to enter步骤一样的方法判断自变量是否应该增加。增加后不再删除,当不在模型中得每一个自变量的p-值都大于Alpha to enter时,则前向选择结束。

16.4.3 后向消元

和前向选择相反,先包含所有自变量。和逐步回归中Alpha to remove步骤一样的方法判断自变量是否应该删除。删除后不再增加。当模型中自变量的p-值没有一个大于Alpha to enter时,则后向消元结束。

16.4.4 最佳子集回归

image

上图右上角是八个自变量,竖着看。
上图的输出中,识别出两个最佳单变量估计的回归方程,两个最佳的两变量估计的回归方程,两个最佳的三变量回归方程,等等。我们通过看R-sq(adj)来选择自变量,如果差不太多,一般选择自变量少的更受人喜欢。

16.4.5 作出最终的选择

image

从修正判定系数来看,我们愿意选择6,但是如果其中poten和share难以度量,我们可以退而求其次选择2,也节省了我们度量的成本。

补充:

  • 可以令作为新的变量加入到模型中,来表示自变量交互作用

16.5 实验设计的多元回归方法

在第十三章中,Chemitech公司的完全随机化涉及


image

这里有三种方法,我们需要定义虚拟变量。k个不同的水平处理,需要k-1个虚拟变量。Chemitech公司案例中虚拟变量设为A、B。即

image

输入数据:
image

得到结果:
image

从估计的回归方程得到的估计值和平均值是一致的。接下来我们利用多元回归分析分析的输出,对这三种装配方法生产数量平均值之间的区别,进行ANOVA检验。如果没区别则对应的
通过代入虚拟变量,,,,观察后做出假设(此时三种方法的E(y)相等)
求解出F如上图所示F=9.18,p-值=0.004。因此我们拒绝认为不全等于0,且两个参数的p-值也可以拒绝,,因此可以得到三种方法两两各不相同。

16.6 自相关性和杜宾-瓦特森检验

现实中很多数据是按照时间顺序采集的,是在时期t的值,而本身又常常依赖y以前的值。我们称在数据中存在的自相关性序列相关)。
例如:

  • y依赖于t-1时起的值,我们称数据中存在一阶自相关性。
  • y依赖于t-2时起的值,我们称数据中存在二阶自相关性。

回归模型假定误差项是独立的,但在数据存在自相关性时违背了这一假定。 一阶自相关性:t时期的依赖于t-1时期的。

image

如何利用杜宾-瓦特森统计量来检测一阶自相关性。假设其中p的绝对值小于1。是平均值为0、方差为的独立的正态分布的随机变量。

  • 如果p为0则不存在自相关性,
  • 如果p>0则存在正自相关性
  • 如果p<0则存在负自相关性

杜宾-瓦特森检验统计量
其中表示第个残差。并且d的取值介于0~4。根据上面的图我们可以知道:

  • 当残差的相邻值彼此近,则d就小,意味着正自相关性
  • 当残差的相邻值彼此远,则d就大,意味着负自相关性

假设:

  • 原假设:不存在自相关性
  • 备择假设:
    • 检验正自相关性:
    • 检验负自相关性:
    • 双侧检验:
image

为下界,为上界。结论判断如下:

  • 正自相关性检验:
    • ,存在正自相关性
    • ,不能确定是否存在正自相关性
    • ,无正自相关性。

其他检验如下图所示:


image

如果显著的自相关性被识别出来,怎么做?

  • 考虑是否遗漏了重要的自变量,并且这些自变量会产生时序的影响。
  • 如果没找到这样的自变量,引入一个观测次数的度量作为新的自变量。
  • 如果还不起作用,可以常吃对自变量、应变量进行变换。

注意:杜宾-瓦特森检验的样本容量,许多统计学家认为至少应该为50。


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

你可能感兴趣的:(第十六章 回归分析:建立模型)