笔记 | 杂谈控制固定效应这件事

这篇博客会先从数据的类型和信息来源先开始,然后再来认识固定效应,包括概念,怎么实现,固定时的注意点,接着学习固定效应,双向固定效应和交互固定效应,最后用一些论文的例子来说明

这里写目录标题

  • 1 数据的类型和信息来源
  • 2 固定效应
    • 2.1 固定效应是什么?
    • 2.2 谈个体固定效应
    • 2.3 时间固定效应和时间趋势项
    • 2.4 双向固定效应
    • 2.5 交互固定效应
  • 3 论文例子

1 数据的类型和信息来源

总所周知,样本数据一般分为三种,分别为截面数据,时间序列数据,面板数据。下面我们挨个介绍它及它的信息来源

  1. 截面数据
    定义:多个经济个体的变量在同一时点的取值
    信息来源:不同个体间的差异(也就是组间变异性)+残差(与个体无关的随机因素)。

  2. 时间序列数据
    定义:某个经济个体的变量在不同时点上的取值。
    信息来源:同一个体在不同时间的差异(也就是组内变异性)+残差(与个体无关的随机因素)

  3. 面板数据
    定义:多个经济个体在不同时点上的取值,分为长面板和短面板。其中截面数大于时间数就是短面板,反之,则为长面板。
    信息来源:不同个体间的差异信息(组间变异性)+同一个体在不同时间的差异(组内变异性)+残差(与个体无关的不随时间变化的随机因素,与个体无关的随时间变化的随机因素)
    PS. 不同个体在不同时间的差异可以分解为不同个体间的差异信息和+同一个体在不同时间的差异

2 固定效应

2.1 固定效应是什么?

固定效应定义:本质上是控制变量,控制于什么不变的因素,或者说是控制随什么而变得因素。

  • 如控制年度固定效应,就是控制相对该年度不变的因素,如控制宏观经济波动,存在本年但与个体无关的因素;
  • 如控制行业固定效应,就是控制相对该行业不变的因素,如不同行业存在差异,如食品行业是受经济周期影响小的行业,但钢铁行业是周期性行业,通过控制行业固定效应,就能控制行业间彼此的差异。
  • 如控制个体固定效应,控制住相对个体不变的因素,换言之,个体间的差异就会被控制住。如小敏和小明性别分别是女和男,当控制了个体固定效应,性别上的差异就会被控制住。

固定效应的实现:控制了固定效应的模型是将模型的各变量减去控制的维度的均值,得到的模型是变换后的各变量为去除控制维度层面均值的数据。

  • 举例,控制地区固定效应:将模型的各变量减去其地区均值(country-demeaned)。有一套数据,数据结构为50个城市*20年,共有1000个观测值,其中数据有一个不随时间改变的城市变量market。我们的模型是因变量为y,自变量为market,z1,z2为控制变量。当模型控制城市固定效应,模型的各变量会减去其所属地区的变量均值,即market-level就会减去所属地区的market的均值,这样market就会被吸收掉。

所以,如果是自变量和固定效应衡量是同一层级的变量,或者是低一层级的变量,就不应该同时出现在模型中了,会被吸收掉
如当你控制城市固定效应,省级层面不随时间变化的变量会被吸收掉。

2.2 谈个体固定效应

个体固定效应的控制常用于面板数据。审稿人常要求控制个体固定效应。

如上所说,面板数据是包含个体(i)和时间(t)两个维度的数据集。按个体分组,一个n×T的数据集可以将样本分成n个小组,每个小组包含T个时间上的观测值,并且其样本的总变异性可以分解成组内差异和组间差异,或者说信息来源于不同个体间的差异和同一个体在不同时间的差异。

那么当控制个体固定效应,我们是控制于个体不变的因素,这样个体与个体间不随时间变化的差异就会被控制。好处在于一次将不随时间变化的可观测和不可观测遗漏变量的影响都吸收掉,大大减少了模型的内生性。但是坏处在于信息来源就剩下了同一个体在不同时间的差异,这样如果对于个体内在不同时间差异变化不大的样本,一般不容易得到结果。

举个例子来说,当我们研究公司多投入研发支出是否会获得更多专利。当我们控制公司固定效应,如果发现在每个公司组内,每次这家公司多投入研发支出,专利申请就会增加,那么我们会更肯定地说他们是因果关系,因为公司还是那家公司,大部分外部条件都是一样的。但问题是,如果同一家公司,每年投入的研发支出增长变化不大,也就是说研发支出减去公司研发投入均值进行回归,应该是不容易有结果的。

反之,如果没有控制固定效应,我们就能借助组间差异性研究这个问题,发现,研发投入多的公司申请专利总是比投入少的公司多,那么我们也可以得出结论,但是这个结果可能受很多混杂因素影响,例如公司特质、行业等等,但这些可以尽量控制。

总言之,如果说,一个研究问题恰恰需要充分利用变量的组间变异性,那么个体固定效应可能就不太合适。是否需要进行个体固定效应,可以采用豪斯曼检验确定。

2.3 时间固定效应和时间趋势项

时间固定效应是控制于本年度不变的特征,即控制只隶属于本年度的宏观经济波动,如2008年经济危机。

时间趋势项是给定年份中的时间指数,如样本包括2000-2010年,则时间趋势变量2000年为1,2001年为2等。

只要有扎实的理论解释,模型可以同时包含两种类型的变量。

2.4 双向固定效应

双向固定效应一般指时间、个体固定效应,双向固定效应的基本模型为:
在这里插入图片描述
其中vi表示v不随时间而变的个体效应,et是指不因个体而改变的时间效应

我的理解是控制了是一个横截面的固定效应+时间的固定效应。

2.5 交互固定效应

交互固定效应,一直有点困扰我的是控制了交互固定效应后,还剩下什么因素呢?后来,我的理解是关注数据的面板结构,也就是数据的维度,维度包含的信息是什么。

先来讲讲交互固定效应,传统的面板数据模型仅仅考虑的是二维累加效应,也就是时间效应和个体效应的叠加,以揭示样本中不随个体变化的时间差异和不随时间变化的个体差异。白聚山老师(2009)在线性面板数据中引入了个体差异和时间差异的交互效应,借以反映共同因素对不同个体的效应差异,具体详见Bai, Jushan. Panel data models with interactive fixed effects. (2009) Econometrica.换言之,当我们控制了个体和时间的交互效应,我们可以控制随个体随时间变化的因素。

比如我们有一个上市公司2000-2018年的面板数据,是包含上市公司个体(i)和时间(t)两个维度的数据集,变量涉及所属地区、行业、年度财务数据。

所以当我们暴力地控制个体上市公司-时间的交互固定效应,相当于控制了这个数据的最大维度(上市公司i # 时间t),所有信息都会被吸收掉,无法进行回归。但如果这个数据时上市公司-十大股东-时间的面板数据,那么他的最大维度应该是上市公司i # 十大股东s # 时间t,这种情形下,控制了上市公司-时间的交互固定效应,那么还剩下10大股东的信息。

总结一下:
以地区和年度固定效应为例
(1)当我们控制城市、年度的双向固定效应时,相当于控制了城市间的差异,和不随个体变化的年度差异;
(2)当我们控制了城市-时间的交互固定效应时,我们控制了城市间每年的差异,如城市间每年的经济发展水平、人口增长水平差异等都被控制了;
(3)当我们控制了城市-时间的交互固定效应时,可以去添加城市,年度的固定效应,但是其实意义不大,信息都已经囊括在城市-时间的交互固定效应;
(4)总结,交互的时候要注意考虑维度限制,即自由度够不够。如果是城市面板,考虑用省和年交互,可能自由度才够。

3 论文例子

State Taxation and the Reallocation of Business Activity: Evidence from Establishment-Level Data (推荐学习,看得很酸爽)

面板数据的结构为公司-州-年的数据,探讨的问题是州税率的变化是否会影响公司到该州建立establishment的意愿。

作者主回归控制了 year,state-firm的固定效应,(最严格的,见第(3)列),然后在后面分析的时候,放松了,分别采用 year,state的固定效应(第(1)列),year,state,firm的固定效应(第(2)列)。下面来分析一哈

首先,面板数据的维度是公司#州#年的数据
(1)控制了year固定效应,这个我们很清楚,是控制与个体无关的时间效应,如果宏观经济冲击等
(2)控制state-firm的固定效应后,面板数据还剩什么因素没有控制住呢?控制state-firm的固定效应,实质上控制了州之间的差异,控制了公司之间的差异,控制了公司选择特定州的选择差异(如假设某i公司是出口公司,它偏向于选择靠近港口的州a,某公司j是家具公司,他偏向于选择自然资源丰富的州b,这些因素都被控制了)。那还有什么因素没有控制呢? 就剩下了时间层面的因素,即公司随年份发生变化的因素,州随年份发生变化的因素,以及公司随州每年发生变化的因素。
(3)控制state,firm的固定效应,就只是控制了相对于州不变的因素,如靠近港口的a州,和具有丰富资源的b州,控制相对公司不变的差异,如i公司是国企,j公司是民营
笔记 | 杂谈控制固定效应这件事_第1张图片

知乎这个贴的举的例子也通俗易懂,推荐阅读
https://www.zhihu.com/question/384049999
(计量经济学模型中交互固定效应的经济含义)

自己的一点浅薄学习,有不对的,欢迎指出,一起学习~

你可能感兴趣的:(其他)