第5章多元线性回归

5.1 二元线性回归

一元线性回归会遗漏变量
X_i1中，i表示第i个个体，1表示是第一个解释变量
OLS估计量的最优化问题仍为残差平方和最小
对数化后的系数表示：x1增加1%个单位，y增加0.233%（求偏导：系数可以看做是y对x1求偏导）

reg y x1 x2

含义：二元回归的命令

predict lny1

（option xb assumed；fitted values）

含义：①拟合值可以命名为lny1，这个是随便起的②xb就是βhat

predict e, residual

含义：计算残差，并将其记为e，residual表示计算残差（默认的命令是计算拟合值的，即fitted values）

list lny lny1 e

含义：罗列原始值lny，拟合值lny1以及残差的拟合值

Iine lny lny1 year,lp（solid dash）

含义：画图比较lny，lny1（纵轴），year是横轴，（solid dash）表示用实现和虚线作区分

5.2 多元线性回归模型

5.3 OLS估计量的推导

对于多元回归模型，OLS估计量的最小化问题仍为使得残差平方和SSR最小

5.4 OLS的几何解释

拟合值向量与残差向量正交，故被解释变量y可以分解为想和正交的拟合值yhat与残差e之和

图1.png

拟合值yhat可视为被解释变量y向解释变量超平面X的投影。由于yhat=Xβhat，故拟合值向量yhat正好在超平面上，根据OLS的正交性，残差向量e与yhat正交。

图2.png

5.5 拟合优度

TSS（离差平方和）=ESS（回归平方和）+RSS（残差平方和）
拟合优度R平方=ESS/TSS
矫正拟合优度=1-[ESS/(n-k)]/[TSS/（n-1）]

图3.png

备注1： ESS包含了n个离差，n个离差之和必为0（OLS估计中估计量求偏导为0，其实就是定义了离差之和为0），因此在这n个离差中真正可以自由取值的只有n-1个离差（只要前边n-1个已经取值了，最后一个就不再是随机变量，而是可以计算出来的），因此ESS的自由度是n-1

备注2： TSS包含n个残差e，n个e受到K个方程的约束，因此只有（n-k）个残差是自由的

备注3：若引入新的变量（即K变大），K变大有两个相反方向作用的发挥①引入K使得模型的解释力上升，残差平方和ESS下降，从而矫正拟合优度（adjust R²）上升②K变大，n-k变下，[ESS/(n-k)]变大，从而矫正拟合优度（adjust R²）上升下降。因此考虑要不要加入新变量的时候，要考虑引入变量的解释力，是否可以抵消其自由度变大的损失，所以我们在考虑模型的时候不能只追求R²越大越好，还要注意模型是否简洁。

备注4： adjust R²的缺点：它有可能出现负值

备注5： R²以及adjust R²只反应拟合优度的好坏，除此并无太多意义

5.6 古典线性回归模型的假定

备注：古典线性回归模型：上世纪五六十年代，计量经济学刚刚开始发展的时候所提出来的一些计量的理论

假定5.1 线性假定

t图4.png

图5.png

图6.png

图7.png

备注：只要将回归方程中变量的高次项（平方项等）或函数（求对数）都作为变量来看待，则已然满足线性假定。

假定5.2 严格外生性

图8.png

严格外生性意味着，在给定数据矩阵X的情况下，扰动项的条件期望为0。因此，扰动项均值独立于所有解释变量的观测数据，而不仅仅是同一观测数据xi中的解释变量（就是说：[图片上传失败...(image-2854a-1607309152743)] 不仅仅要独立于解释变量Xi，还有独立于其他所有的解释变量X1、X2等，即[图片上传失败...(image-edec54-1607309152743)] 与所有个体的解释变量都不相关）。

严格外生的假定在大样本的情况下可以放松。

图9.png

图10.png

假定5.3 不存在严格的多重共线性

数据矩阵的各列向量为线性无关，即不存在某个解释变量为另一解释变量的倍数，或可以由其他解释变量线性表出的情形。换言之，X中不存在多余的变量。

图11.png

如果所有个体的教育年限都相同（就是不是列满秩的），则导致()离差恒为0，()的离差平方和恒为0，分母不存在，导致不存在了。

对于多元回归，如果X列满秩，则X’X为正定矩阵，故（X’X）^-1存在，故可计算=（X’X）^-1X’y；反过来，X不是列满秩，则无法识别。

数据矩阵X满列秩是对数据的最低要求，现实数据不容易出现严格多重共线性，stata数据也会自动去掉某个数据的。

假定5.4 球形扰动项假定-同方差

图12.png

含义：不同个体的扰动项之间不存在“自相关”或“序列相关”

5.7 OLS的小样本性质

在古典线性回归模型的假定（线性假定、严格外生假定、不存在严格多重共线性），OLS估计量具有以下良好性质：

1. 线性性（linear estimator）

从OLS估计量的表达式=（X’X）^-1X’y可以看出，βhat可视为y的线性组合（要把[（X’X）^-1X’]看做系数矩阵），故为线性估计量

2. 无偏性

E（βhat|X）=β，即βhat不会系统地高估或者低估β

E（βhat）=β，可以使用迭代期望公式

3. 估计量的协方差矩阵

备注：球形扰动项假定是估计协方差矩阵的关键

图13.png

4.高斯-马尔科夫定理

含义：最小二乘法是最佳线性无偏估计（best linear unbiased estimator）
备注：若存在异方差，即主对角线上的元素不一样，那么OLS估计量的方差就不一定是最小的，高斯-马尔科夫定理不成立。因此，球形扰动项假定是高斯马尔科夫定理的关键
备注：对于非线性的、有偏的估计量，OLS估计量的方差也不一定是最小的

5. 对扰动项方差的无偏估计

第一步：用观测值来估计

图14.png

解释：方差的估计公式是先平均，求差，然后是平方，但是这里只有，因为在大样本情况下，是0，因此这里直接省略了
解释：残差的样本均值为0，离差之和为0，因此虽然有n个残差，但是必须要满足K个正规方程组，所以可以真正自由取值的只有n-K个。经过n-K的矫正，才是无偏估计，即E（s²）= .如果样本容量n很大，当n趋于无穷时，此时[（n-K）/n]趋近于1，此时是否进行小样本矫正并无多大区别。
备注：s衡量的是扰动项的标准差，所以把它叫做回顾方程的标准误，衡量回归方程扰动项的波动幅度。

第二步，可以用来估计

图15.png

备注：为什么标准差又叫做标准误呢？解释如下：

图16.png

备注：后边的统计推断也有赖于标准误，标准误可以知道店估计的准确程度。

5.8 单个系数的t检验

小样本理论：无论样本容量多少，小样本理论都成立，不需要让样本容量n趋于无穷

大样本理论：要求样本容量n趋于无穷，小样本理论虽然使用于各种样本容量，但不易推导统计量的分布，因此需要对随机变量的概率做很强的假定。

假定5.5 在给定的情况下，的条件分布为正态，即~
考虑最简单的假设检验，即对单个回归系数进行检验，需要检验的原假设（也称为“零假设”）为，即

备注：这个c通常为0，来检验变量是否显著的不等于，若等于，那么就没有存在的意义了
所以假设检验也是一种概率意义上的反证法。首先假设原假设成立，然后看在原假设成立的前提下，是否导致不太可能发生的“小概率事件”再一次抽样的样本中出现。如果小概率事件竟然在一次抽样试验中被观测到，那么说明原假设不可信，应拒绝原假设，接受替代假设（也称“备择假设”），如下：

9:43fen

第5章多元线性回归