一张图理解因果推断中的ATE、ATT、ATC

ATT、ATE、ATC的理解

在因果推断的学习中,遇到了ATE、ATC、ATT三个词,感觉很抽象不好理解。
直到在油管上看到一个视频,解释得比较容易理解,在此记录下来。用上面这一张图,就可以理解这三个概念。
首先要知道这样一个概念:ATT、ATE、ATC都是概念上的理解,是不能通过现实生活中的数据“计算”出来的。

假设:
要研究是否上大学对于收入的影响。X0就是不上大学,X1代表上大学,Y0代表不上大学的收入,Y1代表上大学的收入。
现实世界:
我们可以观察到,不上大学的收入是50000,上大学的收入是80000。能实际看到的只有这两个数据。
但是这能证明上大学会让你的收入变高吗?不一定,因为上大学的人和不上大学的人本就不是一拨人。
假设让时间倒流,当初上大学的那些人,让他们别上了,然后看看平行时空的收入Y,假设是60000。
那么,这个80000-60000=20000,就是ATT,Avg Treatment Effect on Treated。就是对上了大学的那些人,“上大学”这件事产生的影响。

类似的,让时间倒流,当初选择不上大学的人,让他们去上大学,收入变成了多少呢?假设是40000。
那么,这个40000-50000=-10000,就是ATC(就是图中的ATN)。就是对那些没上大学的人,“上大学”这件事产生的影响。你看,如果让那些本来不想上大学的人去上大学,收入还更低呢,也是有可能的。

ATE呢?就是不区分实验组对照组了,就分别求出所有人的平均上大学收入Y1和不上大学收入Y0,这个Y1-Y0就是ATE了。在本例中,假设上大学的人和不上的人是一样多的,那平均的Y0和Y1就是55000和60000,那么ATE=60000-55000=5000。

好了,概念就是这样,那么怎么让时间倒流呢?当然不可能,不过我们可以用别的方式代替。那就是找到世界上的另一个我。
对每个上了大学的人,都从没上大学的人里面,去找一个其他方面(confounders)很相似的人作为替身来计算。
怎么判断两个人的相似程度呢?就是通过倾向性得分(PS)。通俗点理解,就是通过其他各方面的条件,来计算你上大学的概率。概率最接近的人就可以作为你的替身。

你可能感兴趣的:(一张图理解因果推断中的ATE、ATT、ATC)