可观测统计数据上因果推断----因果图模型

基于前文的分析,在统计可观测数据上做因果推断是可以的。但是要满足一个基本的前提条件就是可忽略性,表述为干预变量Z与干预结果{Y(0), Y(1)} 在给定混淆变量X的前提下条件独立。在满足了这个条件后,如何形式化的表示这种因果推断呢?目前有两种经典的方法:由Donald Rubindd提出的RCM和图灵奖的得主Judea Pearl1995年提出的PCM。因为本文要介绍因果图模型,所以也就重点介绍PCM这种方法。PCM就是在有向无环图(DAG)上做因果推断的一整套理论和方法。在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。简单一点,你可以这么理解就这可以像树结果一样化成分层结构且只有从上层往下层的边和层内的边而没有下层回到上层的边,这样的图就是有向无环图。既然这种图是可以分层的,那么就牵扯到“双亲节点”和“孩子节点”。在DAG中规定有向箭头上端的点无双亲节点下端的点为孩子节点。如

可观测统计数据上因果推断----因果图模型_第1张图片

所有的节点集合X=(X1, X2, ..., Xp)。该怎么表示这些节点之间的关系呢?或许你首先想到是的联合分布。那么我们就首先从联合概率分布来讨论。对待DAG时有两种视角:1、把它看成是表示条件独立性模型;2、把它看成数据生成机制。在第一种视角下就可以讨论联合概率分布了。因为若在DAG中给定某个节点的双亲节点后,它他的非孩子节点都相互独立。那么我们就能得到如下的联合概率密度:

其中pai表示Xi的双亲节点集合。

在上图的例子中可以将DAG表示成一个联合概率密度:

可观测统计数据上因果推断----因果图模型_第2张图片

从上述可以看出一个DAG唯一决定了一个联合分布。是否一个联合分布也可以唯一的决定一个DAG呢?答案是否定的,例如下图所示:


图(1)和图(2)的联合概率密码P(X1,X2)=P(X1)P(X2|X1)=P(X2)P(X1|X2)是相同的,但是它们却表示了截然相反的因果关系。因此想单纯从联合分布,很难确定原因和结果。其实,直观上这个概念也很好理解。联合概率密度是对相关性中的共现性的评价,当然不包含原因和结果的信息。

既然联合概率密度不行,你是否考虑条件概率密度?但是条件概率密度也存在一个问题,就是条件概率密度的理论中条件可以互换,P(X1|X2)=P(X2|X1)P(X1)/P(X2) 。这种互为条件的变换在因果推断中是我们不想看到的。我们只想看到原因对结果的影响。那么能不能根据DAG对条件做一些限定呢?如果你这么想,那么恭喜你。你和大牛的思路是一样的。

Pearl为了在DAG上更清晰的引入因果概念(因为DAG中的箭头表示因果不是很方便),提出了do算子。do 的意思可以理解成“干预” (intervention)。没有“干预”的概念,很多时候没有办法谈因果关系。在 DAG 中 do(Xi)=xi (也可以记做 xiˇ),表示如下的操作:将 DAG 中指向 Xi 的有向边全部切断,且将 Xi 的取值固定为常数 xi如此操作,得到的新 DAG 的联合分布可以记做 P(x1,,xndo(Xi)=xi) 可以证明,干预后的联合分布为:


根据do算子,便可以定义因果作用。比如二值的变量Z对于Y的平均因果作用定义为

A C E ( Z Y ) = E { Y d o ( Z ) = 1 } E { Y d o ( Z ) = 0 }

在上面的叙述中,如果整个 DAG 的结构已知且所有的变量都可观测,那么我们可以根据上面 do 算子的公式算出任意变量之间的因果作用。但是现实情况往往是我们既不知道整个DAG的结构也不能观测到所有的变量。在这种信息不完备的情况下如何估计因果作用呢?下个问题在下一篇中详细介绍。

你可能感兴趣的:(可观测统计数据上因果推断----因果图模型)