在实际的计量经济学问题中,完全满足回归的基本假设的情况并不多见。不满足基本假定的情况。称为违背基本假定
违背基本假定的情况主要包括:
线性模型的基本假设中有var(u|x1,x2...xk)=d,即随机干扰项的方差不因自变量的不同而不同。表现在现实的经济生活中,以消费水平受到收入水平的影响为例。C = b0 + b1 * Y + u,对于收入水平Y较低的群众而言,消费情况的变化是比较小的,但是对于收入水平较大的群体而言,其消费水平的变化差异可能就非常大了。用公式表示,即为var(u|x1,x2...xk) = f(xi,d)
wls加权最小二乘法
思想就是将不稳定的方差转换为稳定的方差乘以一个不稳定的函数。通过变换,使得模型变为同方差的情况。
假设我们已经知道了随机误差项的方差和自变量之间的关系: var(ui) = E(ui^2) = di^2 = f(Xij) * q^2 (而不是在无异方差的情况下的 var(u|X) = q^2 )。那么,我们可以使用sqrt(f(Xij))去除以原模型,使得变化后的模型称为无异方差的情况。注:公式中j为变量的标号, i为样本的标号。
变化后的模型如下:Yi / sqrt(f(Xij)) = b0 / sqrt(f(Xij)) + b1x1 / sqrt(f(Xij)) + ... + bk xk / sqrt(f(Xij)) + ui / sqrt(f(Xij))
注意到这里,每个变量Xij除以的都是其相对应的f(Xij). 上面模型,异方差就是不存在的了,便可以用加权后的模型对参数进行估计。
现在的问题是,如何对权重f(xij)进行估计呢?观察var(ui) = f(Xij) * q^2 可以发现,等式左边可以用样本残差ei^2来代替,等式左边f(Xij)中有j个参数,q^2为另一个参数。两边取对数,能够将等式转换为线性模型进行估计。接着就是使用帕克检验的方法,进行各种形式的尝试。从而估计出f(Xij)的形式
异方差稳健标准误法
加权最小二乘法的关键是要寻找模型中随机扰动项u的方差与解释变量间的适当的函数形式,而这并非一件容易的事。如果很难找到的话,可以用异方差的稳健标准误方法,进行替代。
在有异方差的情况下,参数估计仍然是无偏的,但是参数估计的方差和标准差会与传统的有所区别,从而无法保证估计的有效性,但并不影响估计的无偏性和一致性。那么我们仍然采用普通的最小二乘估计量,但是在进行参数检验的时候使用修正后的相应方差。(至于参数的有效性无法满足的问题,并不关注)
在无异方差下,参数估计的方差为var(b|X) = d^2 (x'x)^(-1),在有异方差下,则为 var(b) = (x'x)^(-1) x' * D * (x'x)^(-1) * x' ,这里D为nx1的向量。使用普通最小二乘法估计的残差平方ei^2形成的向量e'e作为向量D的代表。怀特证明了这种做法是对var(b) = (x'x)^(-1) * x' * D * (x'x)^(-1) * x'的一致估计。
当存在异方差时,异方差稳健标准误法虽然不能得到有效的参数估计,但是由于得到了普通最小二乘估计量的正确的方差估计,使得以估计量方差为基础的各项检验不再失效,是消除异方差性不良后果的主要手段。
在经典的线性模型假设中,有随机干扰项独立,即互不相关的假设。这个假设的意思是说,对于造成结果而言,不能由自变量解释到的那部分随机干扰项是独立的。例如,有两块相邻的水田,其各自产量与施肥量,日照量等有关。但两块水田产量的随机因素之间是不存在关系的,不会因为这块水田随机因素大,那块也大。用公式描述,就是:Cov(ui, uj)=0, i和j是观测样本。序列相关则意味着样本之间随机因素是具有相关性的,上面例子中,有些无法观测到的对水田产量的因素,例如土壤肥力如果是随机干扰项的话,那么毫无疑问相邻两块土地之间的随机干扰项是具有相关性的。
通常,由于样本中有n个随机干扰项,如果仅存在E(ui,u(i+1))<> 0 (‘<>’是不等号),那么称之为一阶自相关,一阶自相关是比较常见的序列相关问题。例如:一个人的素质可能与他的朋友的素质是相关的,但是与其朋友的朋友的素质之间,相关性就可以忽略了;或者我们可以理解为,一个人素质与其朋友的朋友之间的关系,事实上是通过其朋友来传导的。那么,这样我们就可以将多阶自相关的问题,通过一阶自相关来理解了。因此,为了能够便于理解和进行计算,我们通常都进行一阶自相关的研究。我们将一阶自相关用公式表述为:ui = p*u(i+1) + ei -1
一般经验而言,对于采用时间序列数据作样本的计量经济学问题,由于在不同样本点上解释变量以外的其它因素(随机干扰项)在时间上的连续性,或者说惯性,往往会导致序列相关性
补救序列相关与补救异方差一样,存在两种思路:一就是变换原模型为不存在序列相关的模型,再用OLS来进行估计,即为广义最小二乘法(GLS)和广义差分法(gdm);另一条途径是仍然采用OLS的估计参数,但是对参数估计量的方差或者标准差进行修正。
广义最小二乘法
广义最小二乘,是具有普遍意义的最小二乘,普通最小二乘和加权最小二乘是它的特例。广义最小二乘是不需要同方差性和无序列相关的假设的。它将随机变量的协方差矩阵不再表示为 d^2 * I 这样的形式, 而是用cov(u,u') = p^2 * W 来表示。其中 W = DD'.进一步的,变换模型为 D^(-1)Y = D^(-1) Xb + D^(-1)*u, 该模型便不再有异方差和序列相关,可以对其使用OLS进行估计。(李子奈《计量经济学》pp.127)
广义最小二乘法真正的难题是如何去估计协方差矩阵W,在序列自相关的情况下,若只有n个样本点,要对n(n-1)/2 + k +2 个参数进行估计是几乎不可能的。因此,只能是说对随机干扰项自相关的结构事先给出必要的假设。一般而言,我们假设随机干扰项是一阶自相关的:即ut = p* u(t-1) + e,对该模型进行估计,便可以得到协方差矩阵W以及权重矩阵D
广义差分法:广义差分法实质上就是广义最小二乘法,不过是损失了部分样本观测值,具体可见《计量经济学》(李子奈)pp.129。公式表述为:如果原模型存在u_t = r_1* u_[t-1] + r_2 * u_[t-2] +...+ r_p * u_[t-p] + e_t ('_'代表下标)。可以将原模型变为
Yt - r1Y[t-1]-r2Y[t-2]-...-rpY[t-p] = b0(1-r1-...rp) + b1(X[t1]-r1X[t-1,1]-...-rpX[t-p,1]) +....+et
随机干扰项相关系数的估计无论是使用广义最小二乘法还是广义差分法,都需要知道不同样本点之间随机干扰项的相关系数r1,r2...rp等,必须对其进行估计,即对ut = r1 * u[t-1] + r2 * u[t-2] + ...+ rp * u{t-p} + et进行估计。但是事实上u{t}是无法观测到的,我们只能使用e{t}来对其进行近似的估计。具体方法为,先使用OLS对原始模型进行估计,对e{t},e{t-1}...e{t-p}之间进行线性估计得出随机干扰项的相关系数。再将其带入到广义差分法或者广义最小二乘法中,得到新的[e{t},e{t-1}...e{t-p}],再次进行估计,得出他们的相关系数,重复上述步骤,直到e{t},e{t-1}...e{t-p}的值趋于稳定。我们称该方法为科克伦-奥科特(Cochrane-Orcutt)迭代法。
序列相关稳健标准误法存在序列相关时,OLS估计的无偏性和一致性仍然是有的,但是有效性无法保证,因此,我们可以对随机干扰项的协方差进行修正,在进行显著性检验时使用改修正的稳健标准误。具体公式过于冗长,可参考《计量经济学》(李子奈)pp.130
若模型设定中遗漏了重要的解释变量,从而导致了序列相关的出现,我们称之为虚假序列相关。我们在处理序列相关问题时,应当要将虚假序列相关的可能性先排除掉,即排除掉遗漏变量的可能。如何避免出现模型设定的偏误问题呢?那就是在开始时建立一个“一般”的模型,然后逐渐剔除缺失不显著的变量。
共线性是指自变量之间存在较大的相关性,导致|X'X| ~= 0,从而(X'X)^(-1)对角线上的元素较大,随机干扰项的协方差矩阵d^2*(X'X)^(-1)对角线上的元素也较大,导致一系列的不良后果。主要包括:
对两个解释变量:可以通过解释变量的样本协方差矩阵,发现解释变量之间的两两相关性,对于相关性非常高的两个解释变量,可能存在共线性的问题
对多个解释变量之间的相关性:所谓多个解释变量相关就是如x1 = x2 + x3 + x4这种。使用综合统计检验,如果在OLS下,模型的R^2与F值较大,但是各参数检验的t值较小,说明各解释变量对Y的联合线性作用显著。但从较小的t值,我们可以估计到,可能存在共线性,从而使得解释变量对Y的独立作用不能分辨,故t检验不显著。
知道模型有多重共线性,进一步的,我们希望能够将引起多重共线性的变量找出来,以进一步地对模型进行调整。具体的方法有判定系数检验法和逐步回归法
判定系数检验法:使模型中每个解释变量分别以其余解释变量为解释变量进行回归计算,即 X{i} ~ x{1} + x{2}+...x{i-1} + x{i+1}+...+x{k}。如果发现该模型的判定系数R^2较大,则说明该解释变量x{i}能够用其它解释变量表征出来。至于如何判定R^2是否足够大,我们可以做F检验。
F{i} =[R{i}^2 /(k-1)] / [(1 - R{i}^2)/(n-k) ] ~ F(k-1, n-k)
逐步回归法:第一步,先做Y与各Xi分别一元线性回归,找出R^2最大的那个Xi,以该一元线性回归为基础;第二步,逐个引入解释变量,观察拟合优度(修正后的拟合优度)的变化,(也可以使用AIC准侧),如果拟合优度变化显著,则说明该变量是一个独立解释变量,如果拟合优度变化不显著,说明该解释变量可以用其它变量的线性组合替代,也就是说它与其它变量之间存在共线性关系。
在计量经济假设中,我们是假设自变量是确定变量,是非随机的。所谓是确定变量,我们可以用科学实验中的对照实验来进行说明,例如:判断不同的水分条件对粮食产量的影响时,我们将控制其它对产量有影响的变量,如光照,土壤,种子等,仅仅使得水分条件不一样,进而判断水分条件对产量的影响。在这种实验中,水分是可以进行人为控制的确定变量,我们称这种实验为“对照实验”。然而,由于伦理和实际操作上的种种不可行,经济学家是不可能拿整个社会来做实验的。例如不能故意控制某个地方的公共投资高,另一个地方的公共投资低,从而判断政府公共投资对收入的影响。经济学家只能使用既有的现实社会运行数据,通过判断不同公共投资地区的GDP的不同来判断公共投资的影响,经济学家称这种为“自然实验”。
但是,事实上,公共投资却并不是完全的确定性的,它并不是政府主动控制想投入多少就投入多少,其大小毫无疑问是受到地方财政收入的约束的。从这个角度上来说,也就是GDP越高的地方,毫无疑问也就能够投入越多的公共投资。那么公共投资与GDP的因果关系就变得非常复杂了,到底公共投资是因?还是GDP是因呢?我们称这种情况为随机解释变量问题:即解释变量无法控制,是具有随机性的。
随机解释变量问题可以分为3种不同的情况:
工具变量法
思想:找到一个工具变量,该工具变量与随机解释变量之间存在较高的相关性,而且对随机解释变量的解释能力也非常高(R^2比较大),但是该解释变量与模型的随机干扰项不相关,与被解释变量也不相关。在模型的估计过程中,用该工具变量替代解释变量进行估计(注意,不是改变原模型,用工具变量代替随机解释变量),注意只是在估计的过程中使用工具变量代替随机解释变量而已。
估计方法: