Ch1-4主要证明符合BLUE的几个条件,以及回归的估计量β,T test(单边,双边),F test。
Ch5 OLS Asymptotics
1.OLS的一致性:当样本足够大时,plimβhat=β+cov(x,u)/var(x)
2.遗漏关键变量的渐近。true model:y=b0+b1x1+b2x2+u
misspecified model:y=r0+r1x1+e
则plimr1hat=b1+b2*[cov(x1,x2)/var(x1)]
Ch6 多元回归的进一步话题
回归方程的各种形式:log(缩小variance)、平方项(用于捕抓边际递减效应)、交互项(用于捕抓difference in slope斜率的差异)
Ch7 Qualitative Information(用dummy variable研究定性的信息)
1.dummy variable举例:gender=1(表示男性);gender=0(表示女性)
dummy variable的交互项:
eg:log(wage)=b0+a1female+b1edu+a1female*edu+u
此时,b0是men的截距项。b1是men的斜率。b0+a0是women的截距项。b1+a1是women的斜率
2.linear probability model【即y是以概率0~1表示】
P(y=1|x)=b0+b1x1+b2x2
Ch8 Heteroscedasticity异方差性
1.异方差是指,误差项u的方差不是常数,受到自变量的变动的影响。
同方差,不管自变量怎么变化,误差项的方差都是一样的。
2.异方差的影响:var(β hat)是有偏的。∴不能构建置信区间和t统计量。t test 、F test、LM statistic不再有效。
即使样本量够大,也不能解决这个问题。OLS不再是BLUE。
但异方差不会引起OLS估计量的偏误或不一致性。但遗漏重要变量是会产生这个效果!
3.使用异方差稳健标准误→ t test可渐近有效,F test 依旧无效
4.检验异方差
1)Breusch-Pagan test:检验误差项的平方是否与1个或以上的解释变量相关。
2) White test:检验误差项的平方是否与1个或以上的解释变量,及解释变量的平方项、交叉项相关。
3)Weighted least squares estimation:整条回归方程两边同时乘以一个数。(赋予一定的权重)
该数与variance有关。所以称为weighted by the variance。
var(u|x)=(a^2)*h(x)
则回归方程两边要同时除以根号h。
---》FGLS:由于很多时候函数h(x)的形式很难发现,但我们可以不断修正函数h,并用数据去拟合模型中的未知参数---》each hi都会有拟合值hi hat,用hi hat在GLS transformation产生的估计值称为FGLS。
Ch10 Time series时间序列数据分析
1.时间序列数据往往有序列相关性,eg:股价会跟前一天的股价相关。
2.引入滞后项。eg:今年颁布生育减税政策,人们有生育意愿,但呈现的结果会滞后1~2年。
3.短期冲击和长期冲击。
4.外生性:每一期的误差与当期的解释变量不相关。
严格外生性:每一期的误差项与所有期的解释变量都不相关。
缺点:严格外生的解释变量不能对过去的y作出反应。
如 t期的犯罪率=b0+b1警察数量t+ut
当期的误差是与当期的警察数量不相关的,但很有可能政府根据上一期的犯罪率来调整当期的警察数量,那么当期的警察数量就会和上一期的误差项相关!
5.去掉趋势的影响。由于时间序列数据里包含序列相关性,但是我们想要关心的是解释变量对因变量的影响,如果不去掉时间序列本身的趋势影响,则得出的解释变量的影响就不准确,因为这里面包含了时间趋势!
比如,啤酒广告对啤酒销售的影响。我们知道啤酒销售有季节性变化趋势,如果不去掉这个趋势的影响,那么在估计啤酒广告的影响时则包含了trend的影响,所以不准确!
Ch11 Time series续
1.是不是平稳的?stationarity
解释变量的预期值、方差,以及相临h期的解释变量均为常数,不随时间变化。
2.是不是weakly dependent?
weakly dependent是指时间序列即使有波动,但总体而言,会回归一个固定的均值。如果不是weakly dependent的话,则时间序列数据是围绕均值波动,但不会回归均值。
如果随着x的期数h增大,t期的x与t+h期的x没有关系的话,那么时间序列是weakly dependent的。
weakly dependent的举例:
1)MA(1) 一阶移动平均。解释变量与当期误差项、前一期的误差项跑回归。
2) AR(1)一阶自回归。因变量与滞后一期的因变量跑回归。
3.差分
I(1)是一阶差分,即△y=y(t) - y(t-1)
如果时间序列数据是highly persistent的,那么需要对数据进行一阶差分以获得weakly dependent的序列。
然后回归因变量的差分与解释变量的差分。
Ch12 时间序列相关性和异方差性
1.Inefficiency
1)serial correlation序列相关性
2)heterosced.异方差性
2.检验时间序列相关性
1)AR(1)
回归误差项u与滞后一期的误差项
2)DW test
如果DW<dl,则拒绝原假设;如果DW>du,则接受原假设
但如果DW统计量落在[dl,du]间,则DW test失效。
3.修正时间序列相关性
4.异方差性的检验
1)回归误差项的平方与滞后一期的因变量。
2)ARCH自回归条件异方差:回归误差的平方项与滞后一期的误差的平方项。
Ch13 DID Analysis
1.DID分析主要应用于检验一个实验/政策的效果。
如,M区建了一个垃圾焚烧厂,想知道该垃圾焚烧厂对M区房价的影响。则可构建如下回归方程:
建设区房价=b0+b1建后+b2近焚烧厂+a1建后*近焚烧厂+u
其中b1衡量的是建前与建后的房价的差异。
b2衡量的是远离焚烧厂与靠近焚烧厂的房价的差异。
a1衡量的是DID。即为建垃圾焚烧厂的影响。
建前 建后 diff.
实验组(近焚烧站) b0+b2 b0+b1+b2+a1 b1+a1
对照组(远离焚烧站) b0 b0+b1 b1
-----------------
∴建焚烧站的影响 a1
2.注意,由于近回归近焚烧站附近的房价与该房子到焚烧站的距离是不能得出修建焚烧站对房价的影响的。因为这个有个自选择问题。可能本来就不是什么好地方(也就暗含那个地方本来房价就低),所以政府才会选择在那建焚烧站。
因此,需要做DID分析!
Ch14 固定效应、随机效应
1.估计固定效应模型的方法
1)取一阶差分
2)使用固定效应估计法(即对时间求平均,这样就能消掉固定效应)
固定效应项ai:是不同的个体的不随时间变化的特质。eg:性别
如果期数T>2,使用固定效应估计法更有效。
如果存在严重的时间序列相关,最好用一阶差分。
2.估计随机效应模型的方法
随机效应uit:随时间而变的特异误差。eg:experience工作经历
使用随机效应估计法。
假定固定效应与每一个解释变量都无关。
Ch15 工具变量
1.引入工具变量的目的:
因为遗漏重要变量,所以产生内生性问题。
内生性问题的解决办法:
1)忽略不理。---》得到biased且inconsistent的估计量。
如果运气好,biased的方向会是一致,这时候还能得出些有用的结论。但如果连biased的方向都不一致,则估计量有可能是高估,或者低估。
2)为不可观察的解释变量寻找合适的代理变量。
比如用IQ代替不可观察的ability。
问题是,有时候很难获取此类变量。
3)假设遗漏变量不随时间变化。
那么就用固定效应或者一阶差分处理。
4)从误差项u里提出更多的外生控制变量,以使关注的内生变量变成外生的。
5)加入工具变量IV
2.工具变量要满足的条件
y=b0+b1x+u
1)工具变量z外生,即cov(z,u)=0
2)工具变量z与x相关。即cov(z,x)≠0
3)工具变量z不直接影响y。
3.弱工具变量
如果工具变量z与x的相关性很低,则最终的bias会很大,导致用IV method比用OLS更糟糕!
4.当z与u可能相关,则可通过加入其它外生控制变量(影响y但不影响x),使工具变量z可变成外生的。
5.工具变量仅出现在1st stage regression,不会出现在2nd stage regression。
因为我们是用工具变量z去拟合x,得到xhat。
然后用xhat跑最初的那条回归方程:y=b0+b1x+u
6.该不该用IV method?
如果x是外生的,则最好用OLS。
Ch16 Binary Response Model 二值响应模型(LPM、Logit、Probit模型)
1.主要讲因变量是定性变量而非定量变量时所采用的模型。
eg:是否就业
2.估计APE和PEA
average partial effect
partial effect average
在连续变量或二值变量时的估计。
3.LPM模型的缺点
linear probability model
1)OLS拟合值没落在概率范围[0,1]之间
2)估计的partial effects是固定的。【有时候不合理。因为大多数情况下,partial effect应该是边际递减的。比如教育,第十年的受教育程度与第五年的受教育程度对薪资的影响程度肯定不同。】
3)出现异方差性,因为var(y|x)=p(x)[1-p(x)]
∴ F test,t test, 置信区间应该存疑!
4.LPM模型的percent correctly predicted比LPM模型里的拟合优度更有信息量!
y=1,就业。y=0,失业。
对y=1的估计的准确率
对y=0的估计的准确率
Ch17 Sample Selection Correction样本的选择问题
1.如果样本不是随机选择的,则数据会有bias
2.如果数据有missing value,那么样本有selection bias issue。
比如调查问卷里,总有些人回答了部分问题而不回答部分问题,而那个人不回答可能本身就含有一定的信息量。
比如说“年薪范围”A.以下3000 B.3000-5000 C.5000-8000 D.8000以上
那些没有回答这道问题的人可能是学生、全职妈妈、退休老人等。
所以你收集到的样本里就间接性地排除了这部分人,所以样本就不是random selected!
3.解决办法