倾向值匹配法的概述和应用+倾向值分析:统计方法与应用

倾向值匹配法的概述和应用

一、因果推论理论概述

1.在应用倾向值匹配法进行因果推断时需要注意后续的检验理论,否则容易妄议因果。
2.什么是倾向值匹配法?
将各个手册单元多维度的信息,使用统计方法简化成一维的数值,是为倾向值,然后据之进行匹配,匹配的目的就是要找寻实验组和对照组样本中拥有相同(或者相似)倾向值的样本,它们之间的差异,就是因果效用。
3.严谨科学的研究设计是进行因果推断的前设,倾向值匹配法是协助我们解决因果推断的研究方法,它不能帮助我们发现因果关系。
4.因果关系问题:Y是否是因X而生?如果是,X对Y影响的程度为何?如果没有X,Y是否就不会发生?
5.在因果推断时面临两方面的困境:一是缺乏反事实案例,二是无法排除可能影响结果的其他因素。
6.因果推论的基本难题基本上也就是缺失数据问题,这表明我们无法获得每个受测单元的个体处理效果,我们必须退而求其次,使用平均处理效用来满足我们探究处理对于结果的作用。
7.使用观测性数据推论因果最常遭遇两个问题:其一,我们无法明确地从数据中界定或抽取出合适的处理变量;其二,即便我们可以界定合适的处理变量,我们也可能面临变量间复杂的关联关系,由此无法有效地推论因果效用。因此,使用观测性数据推论因果,必须依赖一些假定的前提,才能宣称我们求得的处理效用是可靠而有效的。
8.使用平均处理效用虽然可以解决无法求得个体处理效用的难题,但是这背后隐含着一个重要的单元同质性假定,也就是说,各个手册单元基本上是一样的,是同质的。

二、使用倾向值匹配法估计因果效用

p49 9.研究者在使用倾向值匹配样本后,必须检验研究是否仍然存在选择性偏差,进行敏感性分析。
10.使用倾向值匹配法的研究,必须如实汇报共变量分布平衡的情况,如此才能说服读者,证明研究者进行的是有意义的研究。
11.何为统计显著性:https://www.jianshu.com/p/707856b06f3d
12.无论是使用t检验法或者Kolmogorov-Smirnov检验法,使用倾向值匹配后,我们都是在寻求不显著的检验方法,也就是共变量的分布在实验组和对照组是平衡的。然而,任何一种方法只能片面地检验共变量分布平衡的情况,因此,最佳策略是多使用几种方法,才能更好地确认共变量的分布在实验组和对照组间是平衡的。
13.关于缺乏重合的情况,最佳策略还是放弃缺乏重合部分的因果推论,将推论谨慎地局限在重合的部分。
14.从理论上来说,倾向值既然将共变量总结成一维的特征值,通过匹配,应该不会有缺乏重合和缺乏平衡的情形。然而在实际操作中,共变量缺乏重合和缺乏平衡的情况屡见不鲜,是因为我们无从得知处理变量和其他共变量的真实关系,依赖的是一般参数或非参数回归模型,所得到的是粗略的平衡值。目前学者检验共变量重合研究的最新进展是使用贝叶斯非参数回归模型估计倾向值。
15.敏感性分析:分析结果在存在选择性偏差的合理范围内是否依然稳健有效。
16. 判断敏感性分析的标准是:当τ数值越大,则该研究的敏感性越低;当τ数值越小时,则该研究的敏感性越高。一般来说,只要τ > 2.则该研究可以声称已免除隐藏性偏差的影响。
17.敏感性分析方法有Wilcoxon符号秩检验法和Hodges-Lehmann点估计和信号区间检验法、一般来说,使用任一项倾向值匹配分析法的研究的因果推论不受潜在性选择性偏差的影响,就是一项完整且可信赖的研究。
18.研究者在处理分配随机化以及控制其他可能影响处理和结果变量之共变量上,难免存在力所不逮之处,容易被挑出处理分配有选择性偏差,遗漏控制某些重要共变量等数据上的问题,这种先天不足的数据问题,更是社会科学应用倾向值匹配法进行因果推论的根本性难题。

三、案例分析

1.经济学中的内生性和外生性是什么意思?
产生于经济模型内部的变量就是内生变量,内生变量之间往往相互影响,即体现互为变量与函数的关系;而外生变量来自于模型之外,往往是一些参数系数之类的,不会从模型内部得到。内生变量解决的问题是自足性的,外生变量依靠模型本身是回答不了的,要借助外部数据。
2.两配对样本T检验(匹配平衡性检验):计算T检验相伴概率值,如果大于显著性水平(设定值0.05或其他),则拒绝原假设,认为两总体均值不存在显著性差异。
https://wenku.baidu.com/view/a6218a5315791711cc7931b765ce050876327529.html
3.相伴概率:相伴概率就是相应的统计量所对应的P值,他们是一一对应的,而且可以从两个不同角度对假设检验的的原假设作出判断。
4.因果性与相关性的理解:
a.因果性当然存在。大多数事情都有因果啊。就按常识理解。比如你学习努力和考试成绩好就有因果性。
b.相关性很容易理解,也容易计算。但是有一个问题就是相关性没有方向。 什么意思呢?A 和 B 相关有可能是 A 导致 B 或者 B 导致 A。甚至是有一个隐藏的 C。A 和 C 相关,B 和 C 也相关。最后表现出来就是 A 和 B 也相关。但是他们的核心联系其实是在背后的 C。还有就是有时候 A 和 B 高度相关,但是其实完全没有任何因果,他们的相关性只是凑巧而已。
c. 我们可利用相关性去发现可能存在的因果关系,然后利用已有方法去验证因果性。
http://www.myzaker.com/article/5c5194ae77ac641196393b27/
5.社会领域研究进行因果推断时必须解决“样本非随机选择问题”,采用倾向分数匹配是一种随机分配的替代策略,当随机分配实验操作不可行时,它可以尽可能地减少混淆变量对结果的影响。
6.内部一致性信度,又称内部一致性系数,是指用来测量同一个概念的多个计量指标的一致性程度。
倾向值匹配法的概述和应用+倾向值分析:统计方法与应用_第1张图片
7.如果共变量在实验组和对照组分布存在着不平衡或重合的情况不佳,处理分配的随机性就不能达成,获得的处理效用就会有很大的偏差,这是倾向值分析法不可或缺的步骤。
8.倾向评分匹配估计的前提是处理组企业和对照组企业是否满足“条件独立性”假设:即当控制了匹配变量后,企业是否进口和其工资水平相互独立。
9.倾向评分匹配估计结果的有效性取决于匹配变量是否满足“共同支持条件”和“平衡性条件”。“共同支持条件”保证了处理组企业能够通过倾向评分匹配找到与其相匹配的对照组企业。“平衡性条件”保证了匹配后的处理组企业和匹配成功的对照组企业在匹配变量上没有显著性差异。

倾向值分析:统计方法与应用

五. 倾向值匹配及相关模型

1.最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
https://blog.csdn.net/qq_39355550/article/details/81809467
2.一个最佳的logistic回归模型应该将协变量平衡纳入考虑,而对于倾向值估计以外的时间来说,这一点可能是也可能不是进行logistic回归的关键考虑。
3.仔细地选择条件变量和logistic回归的一个正确设定对于倾向值匹配(考虑平衡性)来说非常关键。由于条件变量的选择影响着倾向值上的平衡以及最终的干预效应估计值,因此,我们必须不遗余力地保证倾向值的估计值已经考虑到所有实质上有关的因素并且以一种对模型设定错误不敏感的方式使用观测数据。
4.匹配后各变量在实验组和控制组之间是否变得平衡,也就是说实验组和控制组协变量的均值在匹配后是否具有显著差异。如果不存在显著差异,则支持进一步的模型估计。
5.倾向性评分用来调整组间的差异,除了暴露/处理因素和结局变量分布不同外,可认为其他混杂因素都均衡可比,相当于进行了“事后随机化”,使观察性研究的数据达到了事后随机分配的效果。
6.利用倾向性评分消除混杂因素影响的四种方法:倾向性评分匹配法,倾向性评分分层法,倾向性评分校正法,倾向性评分加权法
https://www.mediecogroup.com/method_topic_article_detail/134/
7.实例演示Stata软件实现倾向性匹配得分(PSM)分析
a.倾向性匹配得分(PSM)分析,主流统计学软件SAS、Stata、SPSS(22.0以上版本)、R语言均可实现。但SAS难度较高,不推荐;SPSS虽然操作简便,但是仅能实现1:1匹配,如无特殊需求可以尝试。笔者重点推荐使用Stata或者R语言完成PSM分析。下面笔者将以实例演示的形式讲解Stata软件在倾向性匹配得分中的应用。
b.理论上说只能对连续变量做均衡性检验,对分类变量的均衡性检验应该重新整理数据后运用χ2检验或者秩和检验等方法。
8.经济学期刊排名
https://bbs.pinggu.org/forum.php?mod=viewthread&tid=4822715
9.独立同分布:随机变量X1和X2服从同一分布,这意味着X1和X2具有相同的分布形状和相同的分布参数,对离散随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。
10.干预组和对照组倾向评分值的对比,为评价干预组和对照组的相似性提供了依据,因此也可以推断估算方法的可信度。
11.倾向得分匹配中协变量的筛选
https://blog.csdn.net/arlionn/article/details/90108138
12. 倾向得分匹配法PPT

你可能感兴趣的:(笔记)