因果关系推断与机器学习

    • 因果关系定义

设X和Y是两个随机变量。定义X是Y的因,即因果关系X→Y存在,当且仅当Y的取值一定会随X的取值变化而发生变化。

两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况:X是Y的因、X是Y的果、X与Y有共同原因(common cause)。对于第三种情况,我们把这种不是因果关系的相关性叫作虚假相关(spurious correlation)。

机器学习模型是强大的概率分布拟合工具,它们可以从观察性数据(observational data)中学习到各种各样的概率分布,但无法定义因果关系

    • 结构因果模型

链状图中Z是中介变量(mediator):

因果关系推断与机器学习_第1张图片

同时影响处理变量和结果变量(X和Y)的变量称为混淆变量(confounders或者confounding variable)。此时X和Y之间存在相关性,但它们之间不存在因果关系。

对撞因子(collider):X和Y都是Z的因,此时X和Y之间既没有相关性,也不存在因果关系。

你可能感兴趣的:(读书笔记,大数据)