应用回归分析期末考试知识点总结

一元线性回归中,残差ei的期望E(ei)=_0;在回归分析中,若存在异方差问题,则应利用_加权最小二乘法处理.;在多元线性回归分析中,若|XX |≈0会导致_多重共线性,其中X为设计矩阵.回归分析中常用的样本数据分为时间序列数据与_横截面数据_.现代统计学中研究统计关系的两个重要分支是_回归分析_和_相关分析.回归分析是处理变量间_相关分析关系_的一种数理统计方法.归分析中的异方差问题会造成以下三个影响:(1)参数的估计值虽然是无偏的,但不是最小方差线性无偏估计。(2)参数的显著性检验失效。(3)回归方程的应用效果极不理想。为什么自变量建立回归模型是一个极为重要的过程3.答:(1))若遗漏了某些重要变量,回归方程的效果肯定不好。(2)若考虑了过多的自变量,在这些自变量中,某些自变量对问题的研究可能不重要,或者有些自变量数据的质量可能很差,或者自变量之间有很大程度的重叠,那么,不仅增大计算量,而且得到的回归方程稳定性也会很差,影响方程的应用。回归模型通常应用于变量的因素分析、_预测_和_控制_等方面.回归分析与相关分析的区别与联系是什么?联系:回归分析和相关分析都是研究变量间关系的统计学课题。区别:a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。b.相关分析中所涉及的变量y与变量x全是随机变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。c.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。回归模型中随机误差项ε的意义是什么?ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。线性回归模型的基本假设是什么?线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip是常数。2.等方差及不相关的假定条件为E(εi)=0, i=1,2….  Cov(εi,εj)=σ^2,3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.为什么要对回归模型进行检验?我们建立回归模型的目的是为了应用它来研究经济问题,但如果马上就用这个模型去预测,控制,分析,显然是不够慎重的,所以我们必须通过检验才能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系。写出多元线性回归模型的矩阵表示形式,并给出多元线性回归模型的基本假设。答︰矩阵表示为y = Xβ +ε线性回归模型的基本假设是①解释变量x1….xp是确定性变量,不是随机变量,且要求rank(X)= p+1自变量选择的几个准则1.自由度调整复决定系数达到最大2.AIC和BIC准则3.C(p)统计量最小为什么自变量的选择是建立回归模型的一个极为重要的问题?(1)若遗漏了某些重要变量,回归方程的效果肯定不好。(2)若考虑了过多的自变量,在这些自变量中,某些自变量对问题的研究可能不重要,或者有些自变量数据的质量可能很差,或者自变量之间有很大程度的重叠,那么,不仅增大计算量,而且得到的回归方程稳定性也会很差,影响方程的应用。多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义;5、模型的预测功能失效。讨论样本量n与自变量个数p的关系。它们对模型的参数估计有何影响?答∶1在多元线性回归模型中,样本容量n 与自变量个数p的关系是∶n>>p。如果n<=p对模型的参数估计会带来很严重的影响。因为:1.在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。2.解释变量X是确定性变量,要求rank(X)= p+1异方差性检验残差图分析法1.拟合值为横坐标2.X为横坐标3.时间或者序号为横坐标等级相关系数法(斯皮尔曼检验法),一元消除异方差性的方法,加权最小二乘法(最常用),BOX-COX变换法,方差稳定性变换法异方差带来的后果有哪些?(1)参数估计量非有效(2)变量的显著性检验失去意义(3)回归方程的应用效果极不理想。总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。产生序列相关性的原因1.遗漏关键变量时会产生序列的自相关性2.经济变量的滞后性会给序列带来的自相关性3.采用错误的回归函数形式产生自相关性4.蛛网现象会引起自相关性5.因对数据加工整理而导致误差项之间产生自相关性序列相关性带来的严重后果是什么?答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题:(1)参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估计值的方差大于无自相关性时的方差。(2)均方误差MSE可能严重低估误差项的方差(3)变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t值和F值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。(4)当存在序列相关时,仍然是无偏估计,但在任一特定的样本中,估计量可能严重歪曲真实情况,即最小二乘法对抽样波动变得非常敏感。(5)模型的预测和结构分析失效。总结DW检验的优缺点。答:优点:(1)应用广泛,一般的计算机软件都可以计算出DW值;(2)适用于小样本;(3)可用于检验随机扰动项具有一阶自回归形式的序列相关问题。缺点:(1) DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法判断。此时,只有增大样本容量或选取其他方法;(2)DW统计量的上、下界表要求n>15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;(3)DW检验不适应随机项具有高阶序列相关性的检验。5.6前进法、后退法各有哪些优缺点答:前进法的优点是能够将对因变量有影响的自变量按显著性一一选入,计算量小。前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显著也不能删除。后退法的优点是是能够将对因变量没有显著影响的自变量按不显著性一一剔除,保留的自变量都是显著的。后退法的缺点是开始计算量大,当减少一个自变量时,它再也没机会进入了。如果碰到自变量间有相关关系时,前进法和后退法所作的回归方程均会出现不同程度的问题。5.7 试述逐步回归法的思想方法。答:逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入变量由于后面变量的应纳入而变得不再显著时,要将其剔除。引入一个变量或从回归防方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到无显著变量引入回归方程,也无不显著变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后得到的回归子集是最优回归子集。列举多重共线性的诊断方法,并给出简要说明.方差扩大因子法:当变量回的方差扩大因子网,说明回与其余自变量之间有严重的多重共线性。特征根判定法:1.特征根分析;2.条件数,当条件数,说明模型中存在较强的多重共线性。直观判定法,根据模型的输出结果进行直观判断,如回归系数的符号不符合经济意义;自变量间的相关系数较大;某些重要的自变量没有通过显著性检验等。多重共线性对回归参数的估计有何影响?答:1、完全共线性下参数估计量不存在;2、近似共线性下OLS估计量非有效;3、参数估计量经济含义不合理;4、变量的显著性检验失去意义; 5、模型的预测功能失效。多重共线性的产生于样本容量的个数n、自变量的个数p有无关系?答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。消除多重共线性的方法1.提出无关变量2.增大样本量3.回归系数的有偏估计选择岭参数k有哪几种方法?答:最优k是依赖于未知参数β和的,几种常见的选择方法是:(1)岭迹法:选择k的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;(2)方差扩大因子法:c(k)=(X'X+kI)-1X'X(X'X+kI)-1,其对角线元Cjj(k)是岭估计的方差扩大因子。要让c jj(k)≤10 ;(3)残差平方和:满足SSE(k)用岭回归方法选择自变量应遵循哪些基本原则?岭回归选择变量通常的原则是:1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;3.去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。岭回归岭迹法选择k值得一般原则1.各回归系数的岭估计基本稳定2.用最小二乘法估计得符号不合理的回归系数,岭估计的符号变得合理3.回归系数没有不合乎经济意义的绝对值4.残差平方和增加不太多

你可能感兴趣的:(R语言,机器学习,回归,逻辑回归)