文章首发于公众号 「如风起」。
原文链接: 小白学统计|面板数据分析与Stata应用笔记(一)
面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程,笔记中部分图片来自课程截图。
笔记内容还参考了陈强教授的《高级计量经济学及Stata应用(第二版)》
面板数据(panel data或longitudinaldata),指的是在一段时间内跟踪同一组个体(individual)的数据。它既有横截面的维度(n个个体),又有时间维度(T个时期)。是同时在时间和截面上取得的二维数据,又称时间序列与截面混合数据(polled timeseries and cross section data)。
一个T=3的面板数据结构如下所示
面板数据类型通常分为三类,分别为:
a.短面板数据与长面板数据
b.动态面板数据和静态面板数据
c.平衡面板和非平衡面板
(1)短面板数据与长面板数据
当截面数n大于T时,即为短面板数据;
当截面数n小于T时,即为长面板数据.
(2)动态面板数据和静态面板数据
如果解释变量包含别解释变量的滞后值,则为动态面板数据,反之则为静态面板。
(3)平衡面板和非平衡面板
当每个个体在相同的时间内都有观察值记录,即为平衡面板,反之则为非平衡面板。
1、面板数据的优点
(1)可以处理由不可观察的个体异质性所导致的内生性问题。
(2)提供更多个体动态行为的信息。
(3)样本量较大,可以提高估计的精确度。
2、面板数据的不足之处
(1)大多数面板数据分析技术都针对的是短面板。
(2)寻找面板数据结构工具变量不是很容易。
面板数据模型分为非观测效应模型和混合回归模型两类。
存在不可观测的个体效应模型即为非观测效应模型,反之则为混合回归模型。
(1)非观测效应模型
a.固定效应模型
b.随机效应模型
Y i t = β x i t + α i + ε i t i = 1 , ⋯ , n ; t = 1 , ⋯ , T \begin{array}{l} {Y_{it}} = \beta {x_{it}} + {\alpha _i} + {\varepsilon _{it}}\\ i = 1, \cdots ,n;t = 1, \cdots ,T \end{array} Yit=βxit+αi+εiti=1,⋯,n;t=1,⋯,T
其中, α i \alpha _i αi是不可观测的个体效应。
如果 α i \alpha _i αi与某个解释变量相关,就是固定效应模型;
如果 α i \alpha _i αi与所有解释变量不相关,则为随机效应模型。
固定效应模型又分为:单向固定效应模型与双向固定效应模型
单向固定效应模型: 只考虑个体效应不考虑时间效应;
双向固定效应模型: 同时考虑个体效应和时间效应,即
y i t = β x i t + λ t + α i + ε i t {y_{it}} = \beta {x_{it}} + {\lambda _t} + {\alpha _i} + {\varepsilon _{it}} yit=βxit+λt+αi+εit
(2)混合回归模型
如果 α i \alpha _i αi=0,即不存在个体效应,则为混合回归模型,即
Y i t = β x i t + ε i t i = 1 , ⋯ , n ; t = 1 , ⋯ , T \begin{array}{l} {Y_{it}} = \beta {x_{it}} + {\varepsilon _{it}}\\ i = 1, \cdots ,n;t = 1, \cdots ,T \end{array} Yit=βxit+εiti=1,⋯,n;t=1,⋯,T
对固定效应模型的估计有两种方法:
固定效应变换(组内变换) 与 LSDV(最小二乘虚拟变量法)
a.固定效应变换(组内变换)
优点: 即使个体效应与解释变量相关也可以得到一致估计;
缺点: 无法估计不随时间而变的变量的影响。
#对固定效应变换无法估计不随时间而变的变量的影响的解决
固定效应模型的Stata的实现命令为:xtreg y x, fe
引入时间效应的双向固定效应的Stata的实现命令为:xi: xtreg y x i.year, fe
== b.LSDV(最小二乘虚拟变量法)==
LSDV的基本思想
LSDV的Stata的实现命令为:
不存在时间效应:reg y x i.code
存在时间效应:xi: reg y x i.code i.year
对随机效应模型的估计方法是广义最小二乘法
随机效应模型估计的Stata命令
不存在时间效应:xtreg y x ,re
存在时间效应:xi: reg y x i.year,re