计量经济学

计量经济学(第三版)

James.Stock

(注:本文是根据作者自身需要所得,并非最优复习策略。)

1.经济问题和数据00

数据的来源:试验数据,观测数据(计量的主要数据来源);
数据的类型:截面数据(横向数据):不同个体在同一时期的数据;
时间序列数据:同一个体在不同时期的数据;
面板数据(纵向数据):多个个体分别在两个或多个时期内观测到的数据。

2.概率论复习

期望的迭代原则:E(Y)=E[E(Y|X)]
证明过程如下(读者感兴趣可阅读):
首先,我们要先学习一些内容。
①条件期望的定义:定义在X=x的条件下,Y的条件期望定义为:E(Y|X=x)=∫y*g(y|x)dy(摘自百度百科)。可知E(Y|X=x)是x的函数而非y的函数,原因在于y被积分掉了,只剩下x。
②E(Y|X=x)可以简写为E(Y|X)。
接下来,开始证明:
第一步是E[E(Y|X)]的定义展开式;


第二步是E(Y|X=x)的定义展开式;

第三步是用到了条件概率公式;

第四步是将两个求和符号位置调换,这并不影响最终结果;

第五步是联合概率求边缘概率;

第六步是E(Y)的定义公式。

3.统计学复习

估计量的性质:
无偏性:样本期望等于总体期望;
一致性:样本期望接近于总体期望;
有效性:方差更小的样本期望才是有效的。

OLS估计量是最佳线性无偏估计量BLUE

p值
P值也称显著性概率,是在原假设成立的前提下,抽到的统计量与原假设之间的距离至少等于其样本计算值与原假设之间距离的概率。
(以下内容感兴趣可读)



以上图为例,μ为总体样本的均值,一般我们无法得知其究竟为多少。于是,统计学家利用随机观测的数据估算的样本均值的范围是[-Yact,Yact]之间。此时,我们想随机抽取一个均值来验证原假设是否正确。我们当然希望μ在[-Yact,Yact]之内,且[-Yact,Yact]区间越小越好,这样随机样本的均值就能逐渐接近于总体均值μ。为什么要追求样本均值接近于总体均值呢?这其实是估计量的一致性。下面随机抽取一个均值Y,发现其在[-Yact,Yact]之内,说明随机样本的期望与总体期望差距很大。若随机抽取的均值Y在[-Yact,Yact]之外,则侧面说明[-Yact,Yact]与μ很接近,这正是我们想要的。
当我们在验证随机样本的均值是否可靠时,会随机抽取一个均值Y,当Y在[-Yact,Yact]之内,说明[-Yact,Yact]与μ的差距很大,且此时P值为0,说明拒绝原假设。当Y在[-Yact,Yact]之外,说明此时[-Yact,Yact]与μ很接近,且此时P值为1,说明不能拒绝原假设。
一定要注意的是,我们是用随机样本的均值去推测总体样本的均值。所以[-Yact,Yact]与μ的距离越近越好。怎么衡量距离近不近呢?我们用一个随机的均值Y作为参照,当其在[-Yact,Yact]之外说明距离很近。
大部分的经济学论文都是默认原假设是错误的,因此我们在论文中追求P<0.05。为什么是0.05呢?这是因为我们在用随机部分样本均值去推测总体的真实均值时,需要一定的规定,而0.05是统计学家在模拟样本推测总体实验中的经验值。

t值与P值的关系


上表务必熟记!注意自由度n为无穷大。

以上图为例,上图为双边检验,两个阴影面积之和为P值,一个阴影面积为P/2。当P值越小,则t值越大,此时计量实验的结果越显著,越要拒绝错误的原假设。若为单边检验则只有一个阴影面积,此时这一个阴影面积即P值。P值是概率,在几何上用面积表示,t值是个数字,是个临界点的数值,在图上用某个点表示即可。

总体均值的置信区间

μY的95%置信区间=[Y±1.96SE(Y)];
μY的90%置信区间=[Y±1.64SE(Y)];
μY的99%置信区间=[Y±2.58SE(Y)];
其中,Y是随机观测的样本均值,SE(Y)是Y的标准差,也就是其方差的平方根。
95%置信区间意味着P值=0.05,此时对应的t值=1.96。
一般用于回归系数β1的置信区间求解。

Q:是不是建立的模型一定具有因果关系?
A:统计只能说明相关性,因果关系需要引入相应的经济理论解释。

4.一元线性回归

普通最小二乘(OLS)法

线性指的是被解释变量与解释变量之间的线性关系,或者是被解释变量与参数之间的线性关系(线性主要是指这种情况)。

线性回归模型:是指所建立的模型中的回归系数为线性,而其中的解释变量不要求一定为线性的。

一元线性回归的最小二乘假设(不同的教材内容不同)
一元线性回归模型:Yi=β0+β1Xi+ui。一元是一个自变量X,线性指的是其是有斜率的一条直线。
1)给定Xi时ui的条件分布均值为零;
2)(Xi,Yi),i=1,2,...,n独立同分布;
3)不太可能出现异常值。
对第一条的解释如下:
E(ui|Xi=x)=0可以简写为E(ui|Xi)=0,其实在E(ui|Xi)=常数时,ui与Xi已经无关了,追求无关是为了减少遗漏变量的问题。
由于总体样本的回归函数为:Yi=β1+β2Xi+ui,样本回归函数为:



为什么要在E(ui|Xi)=常数的基础上令常数为零呢?原因在于使得我们估计的样本回归函数尽量接近于真实的总体回归函数。
对第二条的解释如下:
独立同分布是为了使数据满足随机抽样的性质。
对第三条的解释如下:
由于OLS回归是在计算方差,根据估计量的有效性,我们希望方差越小越好。

5.一元线性回归:假设检验和置信区间

回归系数的假设检验
1.斜率β1的双边假设检验:
1)


标准误SE一般在计量回归结果表中的小括号里。
2)计算t统计量,

一定要熟记t值的表格(前面有提过),在计量回归结果表中看*号即可。
3)计算P值,

P值<0.05的原则不能忘。
2.斜率β1的单边假设检验:
H0:β1=β1,0;H1:β1<β1,0(单边备择假设)
由于单边和双边的原假设是一致的,因此t统计量的公式不变,区别在于如何解释t统计量,也就是如何选择t值表格(前面有提过)中的数值。

上述的公式需要注意的是,p值公式中的“<”与单边备择假设中的“<”是一致的。
3.截距β0的假设检验:
一般在实证分析中偶尔会关注β0的检验,其检验步骤同β1的检验,具体请查阅相关资料。

X为二值变量的回归
二值变量也称指示变量、虚拟变量。
二值变量的一元回归模型:Yi=β0+β1Di+ui,i=1,2,...,n,其中Di为二值变量,即取值0或1。
该模型与正常的连续一元回归模型的β1的解释是不同的。这里的β1不是斜率,而仅仅是Di的系数,可将其视为两组抽样的样本均值之差。

同方差和异方差
同方差:在E(ui|Xi)=0或常数的基础上,该条件分布E(ui|Xi)的方差var(ui|Xi=x)是常数且不依赖于Xi=x。
异方差:在E(ui|Xi)=0或常数的基础上,该条件分布E(ui|Xi)的方差依赖于Xi。

普通最小二乘OLS的理论基础

6.多元线性回归

遗漏变量偏差:回归变量X1与回归中漏掉的并对因变量Y起部分决定作用的某个变量X2相关,则OLS估计量有遗漏变量偏差。一元回归实验其实并没有什么帮助,只是作为多元回归学习的铺垫。由于影响因变量Y的现实因素肯定是多元的,因此有必要学习多元回归。而多元回归一般会有遗漏变量或多加入了不相关的变量。

一元回归中的遗漏变量偏差:
(1)X与遗漏变量相关;
(2)遗漏变量是因变量Y的一个决定因素。
遗漏变量问题分为两种,一种是遗漏变量偏差,另一种是X与遗漏变量不相关但影响Y却被遗漏的变量。后者可以不进行处理,因为其不会导致OLS估计不一致。而前者会导致OLS估计不一致,需要进行内生性处理。根据《基本有用的计量经济学》P43的内容:若两个变量X1、X2都对Y有影响,但X1、X2之间内有因果关系,则X1、X2也没有相关性。由此可见,遗漏变量偏差意味着遗漏变量X2与回归变量X1之间存在着因果关系,也就是所谓的内生性问题。


多元回归模型:


其中,i表示不同的个体,n表示有n个不同的回归变量。
β1解释为:在保持除X1以外的其他控制变量不变或控制X1以外的其他控制变量时,X1变化一个单位对因变量Y的效应。
总体多元回归模型的另一种表述为:

X0i称为常数回归变量。

多元回归的最小二乘假设
1)给定X1i,X2i,...,Xki时的条件分布均值为零
2)(X1i,X2i,...Xki,Yi),i=1,2,...,n,满足i.i,d;
3)不太可能出现异常值;
4)不存在完全多重共线性

对于第一条的解释:
随着越来越多的Xi进入样本模型,第一条假设条件E(u|X1i,X2i,...Xki)=0越来越易满足,但是未进入样本模型的某个Xki,与模型中的变量相关的可能性越来越大。越来越多的Xi进入模型表示变量遗漏的可能性越来越小,后半句怎么理解呢?举个例子,这里原来只有一个张三,还有一个李四,这两人同一天生日的可能性很小,但是随着加入越来越多的人,李四与这个群体中某个人同一天生日的可能性将会变大。
E(u|X1i,X2i,...Xki)=0意味着OLS估计量(样本模型中的各个斜率)是总体模型各个斜率系数的无偏估计。

** 条件均值独立:E(ui|X1i,X2i)=E(ui|X2i),其中,X1i为关键解释变量,X2i为控制变量。**
X1i的系数可以解释为因果关系,X2i的系数不能解释因果关系。即X1i的OLS估计量是无偏的,X2i的OLS估计量不是无偏的。

用条件均值独立的假设条件替代多元回归最小二乘的零条件均值假设,可以准确地描述关键解释变量与控制变量的区别。

对于第四条的解释:
完全多重共线性是在多元回归时,在人为犯错的情况下导致的。其定义为模型中的一个变量是其他回归变量的完全线性函数。

虚拟变量陷阱
完全多重共线性问题与虚拟变量陷阱本质上是同一个问题,其解决办法是将原有的n个完全共线性变量除去一个变量,即n-1个变量。

不完全多重共线性
其定义为两个或多个回归变量是高度相关的,不完全多重共线性对OLS估计量(样本模型中的系数,包括斜率和截距)的理论不构成任何问题。由于其不一定是个错误,解决办法是扩大样本量,缩小回归系数的方差。

7.多元回归中的假设检验和置信区间

多元回归中的遗漏变量偏差
遗漏变量偏差是OLS估计量中的偏差,是当一个或多个回归变量与遗漏变量相关时产生。
(1)至少有一个回归变量必须与遗漏变量相关;
(2)遗漏变量必须是因变量Y的一个决定因素。

8.非线性回归函数

非线性回归函数分为两类:

1)对变量非线性:

2)对参数非线性:

总体回归函数的斜率分类:一条直线的斜率;曲线上的斜率;多段直线的斜率。

利用多元回归建立非线性模型的一般方法
(1)确定一种可能的非线性关系;(多项式回归,其次方r一般取2或3;对数回归)
(2)确定一个非线性函数并用OLS估计其参数;
(3)确定非线性模型是否改进了线性模型;
(4)画出非线性回归函数估计图;
(5)估计X变化对Y的效应。

三种对数回归模型

自变量的交互作用
交互又称交乘、交叉,把一条直线变为两条直线。比如,X2与X1产生交互作用,意味着X2对Y的影响依赖于X1。
(1)两个二值变量的交互作用


假设D1i为性别,D2i为是否取得学位,则D1i×D2i的系数β3是男性和女性获得学位的效应之差。
(2)连续变量和二值变量的交互作用
①截距不同而斜率相同:

②截距不同且斜率不同:

③截距相同但斜率不同:

(3)两个连续变量的交互作用

9.基于多元回归的评估研究

1.X和u的相关性的原因:
1)遗漏变量;
2)回归变量存在测量误差(系统性误差和随机性误差);
3)双向因果关系。
若X和u相关,则OLS估计量是非一致的。

2.系统性误差和随机性误差
系统性误差的危害很大。随机性误差若来源于Y,后果只是增大标准误,而来源于X则估计系数有偏。

10.面板数据回归

面板数据回归是多元回归的直接推广,主要是和面板数据对比,当然不能媲美随机数据。

面板数据按照观测值是否有缺失分为平衡面板(无缺失观测值)和非平衡面板(缺失观测值)。

具有两个时期的面板数据:“前后”比较(一阶差分)



这种前后比较固定了随个体变化但不随时间变化的Zi不可观测因素。

(个体)固定效应回归
定义:是一种控制面板数据中随个体(州)变化但不随时间变化的遗漏变量的方法。适用于每个个体存在多个观测值的情形。
固定效应回归模型


其中ai为个体固定效应,不同的个体i的总体回归方程,其斜率相同而截距不同。
也可用二值变量构建个体固定效应回归模型:

一元回归变量X的时间固定效应回归模型



λ为时间固定效应。

也可用二值变量构建时间固定效应回归模型:

联合个体和时间固定效应回归模型



也可用二值变量和一个截距表示联合固定效应模型:


面板的类型
1)长面板:个体数较少(两个),时期较多;
2)短面板:个体数较多,时期较少(两个)。

11.二值因变量回归

1.二值因变量:因变量取值有限,也就是受限因变量。

2.线性概率模型:应用于二值因变量的多元线性回归模型。线性是指其为直线,概率模型是指其模拟了因变量取1的概率。
线性概率模型是多元线性回归模型:



其中的Yi为二值变量。
回归系数β1的意思是:在固定其他回归变量不变的情况下,X1变化一个单位引起的Y=1的概率变化。
回归系数由OLS求解;
置信区间和假设检验由常用的(异方差稳健性)OLS标准误差求得。
线性回归的缺点是其OLS拟合直线会超过[0,1]范围。

probit和logit(logistic)模型(非线性回归模型的一种)
多元probit回归:


二值因变量回归的系数估计是基于最大似然法而不是OLS得到的。
logit回归:

这两个二值模型的区别在于累积分布函数的不同,且logit比probit出结果速度更快。
二值因变量模型拟合的度量方法是正确预测的比例伪R^2

12.工具变量回归(IV)

1.IV回归:是当回归变量X 与误差项u相关时,获得总体回归方程未知系数一致估计量的一般方法。

2.IV回归方法:两阶段最小二乘法(TSLS)(最常见)。在满足IV两个条件下,TSLS估计系数。
1)第一阶段:Xi=π0+π1Zi+vi;其中π0+π1Zi是外生性,vi是相关性,即vi与ui相关。并用OLS估计出系数π0、π1;
2)第二阶段:利用OLS估计总体回归模型的参数,注意排除完全多重共线性问题。

3.工具变量有效的两个条件:
1)IV相关性:corr(Zi,Xi)<>0;
2)IV外生性:corr(Zi,ui)=0.

4.一般IV回归模型:



其中,Yi是因变量,Xi是有问题的内生回归变量。Wi是与ui不相关的包含的外生变量,此时E(ui|Wi)=0,W也可以是不需要有因果关系含义的控制变量。

5.对IV个数的要求
1)当Z的个数等于X的个数,恰好识别;
2)当Z的个数大于X的个数,过度识别;
3)当Z的个数小于X的个数,不可识别。

6.IV可解决的问题
1)遗漏变量偏差;
2)双向因果关系(主要);
3)回归变量有测量误差;
4)选择偏差。

13.试验和准试验(自然试验)

1.个体因果效应和平均因果效应
1)个体因果效应:方法之一是一卵双生双胞胎;
2)平均因果效应:理想下用随机对照试验,随机对照试验只是追求处理组和对照组在平均意义上是一样的,随机对照试验也无法估计出个体因果效应,只能估计结果。

2.内部有效性(Xi与ui相关)的威胁
1)非随机化;
2)没有遵循处理协议;
3)损耗;
4)试验效应;
5)小样本;
6)准试验中的工具有效性。

3.外部有效性的威胁
1)非代表性样本;
2)非代表性的项目或政策;
3)一般均衡效应。

**内部性是外部性的前提**

你可能感兴趣的:(计量经济学)