倾向值匹配(PSM)指南

为什么要倾向值匹配?

样本选择偏误会带来内生性问题:
比如在比较读研究生对于工资的影响时,要选择能力、智商、家庭背景、工作单位等都差不多的样本进行比较,所以需要样本匹配.

样本匹配的核心

  1. 共同支撑假设
    倾向值匹配(PSM)指南_第1张图片
  2. 平行假设
    倾向值匹配(PSM)指南_第2张图片

方法与举例

小明读研究生和没读研究生的工资差距多少?
这是一个反事实问题,因为事实上他已经读了
使用倾向值匹配,从一大堆没读研究生的人(样本子集)中,对每个人读研究生的概率进行估计(logistic回归),找到与小明有差不多读研概率但没读的小强,作为小明的对照。

步骤

对总体样本进行 logit 或 probit 回归
估计出每一个观测对象读研的概率
根据读研概率,把读研的和没读研的配对起来,得到实验组和对比组

++++++++++以下为stata实现+++++++++++++++++

# probit 回归
probit [dependent var] [independent var]
# [dependent var] 是01变量
# [independent var] 是普通变量
# 根据 probit 模型计算出每个样本的读研概率
predict pscore, p
# pscore 是纪律每个观测对象读研概率的变量
倾向值匹配
psmatch2 [dependent var], pscore(pscore) noreplacement
# 括号中的pscore是上段中的变量名
# 参数noreplacement 表示实验组合对比组是1对1匹配的

注:
Stata会在表中自动添加几个变量:

变量名 解释
_id 每个样本的唯一ID,自动生成的
_treated 是否读了研究生
_n 匹配到对象的ID
_pdif 该样本与其匹配样本的概率差

你可能感兴趣的:(计量)