聚类调整标准误笔记

1. 何为聚类标准误

标准误在统计推断中发挥着至关重要的作用,直接影响着系数的显著性和置信区间,并最终影响到假设检验的结论。因此,正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」 条件时, OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时,OLS 所估计的标准误是有偏的,不能很好地反映估计系数的真实变异性 (Petersen, 2009),故需要对标准误进行调整。在多种调整标准误的方式中,「聚类调整标准误 (cluster)」是一种有效的方法 (Petersen, 2009)。

异方差问题是引起标准误变化的主要问题。

2. 标准误的作用

(1)构建 t 统计量。在进行统计推断时,需要构建 t 统计量来对单个参数进行假设检验

(2)构建置信区间。利用 β的标准误还可以构建总体参数 β的置信区间

3. 聚类调整标准误的基本思想

使用聚类方法调整标准误时,放宽了随机误差项「独立同分布」的假定,要点如下:

 (1)允许组内个体的干扰项之间存在相关性;

 (2)不同组之间个体的干扰项之间彼此不相关;

 (3)系数估计值仍然采用 OLS 估计值,因为它是无偏的。

一维聚类调整标准误

*-截面数据,在公司层面进行聚类,以下两种写法等价
  reg y x, cluster(id) 
  reg y x, vce(cluster id)  
  
*-面板数据,在公司层面进行聚类,以下三种写法等价
  xtset id year
  xtreg y x, fe cluster(id)  
  xtreg y x, fe vce(cluster id)
  xtreg y x, fe robust  // If you specify -xtreg, fe robust-, Stata will automatically, and without even telling you, use vce(cluster panel_variable) instead. (This is true since version 13.)

*-面板数据,在省份层面进行聚类(地区层面聚类,t值偏小)
  xtset id year
  xtreg y x, fe vce(cluster prvcnm) nonest

二维聚类调整

help vce2way	 // Cameron et al. (2011), 可以估计二维SE, 支持 xtreg
webuse "nlswork.dta", clear
vce2way regress ln_wage age grade, cluster(idcode year)

2. 考虑在什么级别对标准误进行聚类

是对个体的、县的、省的还是行业的标准误进行聚类呢?

你可能感兴趣的:(stata,聚类,机器学习,数据挖掘)