第5章 多元线性回归
5.1 二元线性回归
一元线性回归会遗漏变量
Xi1中,i表示第i个个体,1表示是第一个解释变量
OLS估计量的最优化问题仍为残差平方和最小
对数化后的系数表示:x1增加1%个单位,y增加0.233%(求偏导:系数可以看做是y对x1求偏导)
reg y x1 x2
含义:二元回归的命令
predict lny1
(option xb assumed;fitted values)
含义:①拟合值可以命名为lny1,这个是随便起的②xb就是βhat
predict e, residual
含义:计算残差,并将其记为e,residual表示计算残差(默认的命令是计算拟合值的,即fitted values)
list lny lny1 e
含义:罗列原始值lny,拟合值lny1以及残差的拟合值
Iine lny lny1 year,lp(solid dash)
含义:画图比较lny,lny1(纵轴),year是横轴,(solid dash)表示用实现和虚线作区分
5.2 多元线性回归模型
5.3 OLS估计量的推导
- 对于多元回归模型,OLS估计量的最小化问题仍为使得残差平方和SSR最小
5.4 OLS的几何解释
- 拟合值向量与残差向量正交,故被解释变量y可以分解为想和正交的拟合值yhat与残差e之和
- 拟合值yhat可视为被解释变量y向解释变量超平面X的投影。由于yhat=Xβhat,故拟合值向量yhat正好在超平面上,根据OLS的正交性,残差向量e与yhat正交。
5.5 拟合优度
TSS(离差平方和)=ESS(回归平方和)+RSS(残差平方和)
拟合优度R平方=ESS/TSS
-
矫正拟合优度=1-[ESS/(n-k)]/[TSS/(n-1)]
备注1: ESS包含了n个离差,n个离差之和必为0(OLS估计中估计量求偏导为0,其实就是定义了离差之和为0),因此在这n个离差中真正可以自由取值的只有n-1个离差(只要前边n-1个已经取值了,最后一个就不再是随机变量,而是可以计算出来的),因此ESS的自由度是n-1
备注2: TSS包含n个残差e,n个e受到K个方程的约束,因此只有(n-k)个残差是自由的
备注3: 若引入新的变量(即K变大),K变大有两个相反方向作用的发挥①引入K使得模型的解释力上升,残差平方和ESS下降,从而矫正拟合优度(adjust R2)上升②K变大,n-k变下,[ESS/(n-k)]变大,从而矫正拟合优度(adjust R2)上升下降。因此考虑要不要加入新变量的时候,要考虑引入变量的解释力,是否可以抵消其自由度变大的损失,所以我们在考虑模型的时候不能只追求R2越大越好,还要注意模型是否简洁。
备注4: adjust R2的缺点:它有可能出现负值
备注5: R2以及adjust R2只反应拟合优度的好坏,除此并无太多意义
5.6 古典线性回归模型的假定
备注:古典线性回归模型:上世纪五六十年代,计量经济学刚刚开始发展的时候所提出来的一些计量的理论
假定5.1 线性假定
备注:只要将回归方程中变量的高次项(平方项等)或函数(求对数)都作为变量来看待,则已然满足线性假定。
假定5.2 严格外生性
严格外生性意味着,在给定数据矩阵X的情况下,扰动项的条件期望为0。因此,扰动项均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据xi中的解释变量(就是说:[图片上传失败...(image-2854a-1607309152743)] 不仅仅要独立于解释变量Xi,还有独立于其他所有的解释变量X1、X2等,即[图片上传失败...(image-edec54-1607309152743)] 与所有个体的解释变量都不相关)。
严格外生的假定在大样本的情况下可以放松。
假定5.3 不存在严格的多重共线性
数据矩阵的各列向量为线性无关,即不存在某个解释变量为另一解释变量的倍数,或可以由其他解释变量线性表出的情形。换言之,X中不存在多余的变量。
如果所有个体的教育年限都相同(就是不是列满秩的),则导致()离差恒为0,()的离差平方和恒为0,分母不存在,导致不存在了。
对于多元回归,如果X列满秩,则X’X为正定矩阵,故(X’X)-1存在,故可计算=(X’X)-1X’y;反过来,X不是列满秩,则无法识别。
数据矩阵X满列秩是对数据的最低要求,现实数据不容易出现严格多重共线性,stata数据也会自动去掉某个数据的。
假定5.4 球形扰动项假定-同方差
含义:不同个体的扰动项之间不存在“自相关”或“序列相关”
5.7 OLS的小样本性质
在古典线性回归模型的假定(线性假定、严格外生假定、不存在严格多重共线性),OLS估计量具有以下良好性质:
1. 线性性(linear estimator)
从OLS估计量的表达式=(X’X)-1X’y可以看出,βhat可视为y的线性组合(要把[(X’X)-1X’]看做系数矩阵),故为线性估计量
2. 无偏性
E(βhat|X)=β,即βhat不会系统地高估或者低估β
E(βhat)=β,可以使用迭代期望公式
3. 估计量的协方差矩阵
备注:球形扰动项假定是估计协方差矩阵的关键
4.高斯-马尔科夫定理
含义:最小二乘法是最佳线性无偏估计(best linear unbiased estimator)
备注:若存在异方差,即主对角线上的元素不一样,那么OLS估计量的方差就不一定是最小的,高斯-马尔科夫定理不成立。因此,球形扰动项假定是高斯马尔科夫定理的关键
备注:对于非线性的、有偏的估计量,OLS估计量的方差也不一定是最小的
5. 对扰动项方差的无偏估计
- 第一步:用观测值来估计
解释:方差的估计公式是先平均,求差,然后是平方,但是这里只有,因为在大样本情况下,是0,因此这里直接省略了
解释:残差的样本均值为0,离差之和为0,因此虽然有n个残差,但是必须要满足K个正规方程组,所以可以真正自由取值的只有n-K个。经过n-K的矫正,才是无偏估计,即E(s2)= .如果样本容量n很大,当n趋于无穷时,此时[(n-K)/n]趋近于1,此时是否进行小样本矫正并无多大区别。
备注:s衡量的是扰动项的标准差,所以把它叫做回顾方程的标准误,衡量回归方程扰动项的波动幅度。
- 第二步,可以用来估计
备注:为什么标准差又叫做标准误呢?解释如下:
备注:后边的统计推断也有赖于标准误,标准误可以知道店估计的准确程度。
5.8 单个系数的t检验
小样本理论:无论样本容量多少,小样本理论都成立,不需要让样本容量n趋于无穷
大样本理论:要求样本容量n趋于无穷,小样本理论虽然使用于各种样本容量,但不易推导统计量的分布,因此需要对随机变量的概率做很强的假定。
假定5.5 在给定的情况下,的条件分布为正态,即~
考虑最简单的假设检验,即对单个回归系数进行检验,需要检验的原假设(也称为“零假设”)为,即
备注:这个c通常为0,来检验变量是否显著的不等于,若等于,那么就没有存在的意义了
所以假设检验也是一种概率意义上的反证法。首先假设原假设成立,然后看在原假设成立的前提下,是否导致不太可能发生的“小概率事件”再一次抽样的样本中出现。如果小概率事件竟然在一次抽样试验中被观测到,那么说明原假设不可信,应拒绝原假设,接受替代假设(也称“备择假设”),如下:
9:43fen