目录
[toc]
1.1 信息论基础
1.2 贝叶斯网基本概念
1.3 变量独立性的图论分析
光具有波粒二象性,可以用概率波描述。贝叶斯网也具有二象性,可以从定量角度分析,也可以从定性角度分析,是概率论与图论结合的产物。从概率论角度,我们可以讨论变量之间的依赖和独立关系;从图论角度,我们可以讨论节点之间的联通和分隔关系。这二者具有等价性。
图论具有一个特点,结论通常容易直观理解,但对结论的严格证明则相对复杂。本节将从图论视角给出贝叶斯网的一些结论。结论的证明往往需由多个引理串联,为了易于理解,笔者先给出结论和对结论的分析,再对结论进行证明。
下面将分四个部分展开阐述:
首先,从直观上分析图分隔与变量独立的关系,主要包括了顺连、分连和汇连三种基本结构,并给出有向分隔(D分隔)的概念;
然后,给出判断D分隔的简化方法,其等价于在该有向图的端正化无向图中寻找无向分隔(U分隔)。
接着,给出祖先闭集的概念,我们知道一个贝叶斯网包含图元素(节点和边)和条件概率表两部分,对图进行裁剪会破坏概率表,使得修改后的图可能不再是贝叶斯网,而通过祖先闭集的概念,可以确保修改后的图仍满足贝叶斯网;
最后,严格证明D分隔与条件独立的等价性,即整体马尔可夫性。由整体马尔可夫性可以得到两个推论,这两个推论可用于发现独立性关系。贝叶斯网中的马尔可夫性是我们上一节提到的通过因果机制独立降低联合概率复杂度的背后原理。
1.3.1 图分隔与变量独立的直观分析
在贝叶斯网中,如果两个变量X和Y直接连接,则表示它们之间有直接依赖关系,对X的了解会影响对Y的信度,反之亦然。仍以上一节中Alarm网络的案例(如下图):B与A之间有一条边,表示A对B有直接依赖关系,若知道『发生了盗窃』,则对『警铃响』的信度会增加;同样,若知道『警铃响』,则对『发生了盗窃』的信度也会增加。我们称信息能够在两个直接相连的节点之间传递。
另一方面,如果X和Y不相连,那信息需要通过其它变量才能在两者之间传递。如果X和Y之间所有信息通道都被阻塞,那信息就无法在它们之间传递,对其中一个变量的了解不会影响对另一个变量的信度,X和Y相互条件独立。如下图,有顺连、分连和汇连三种基本情况会导致这种阻塞的发生。
(a) 顺连
如图1.3.1(a)所示,为顺连结构。
若Z未知,则对X的了解会影响关于Z的信度,进而影响关于Y的信度;反之亦然。所以,此时信息可以在X和Y之间传递,它们之间有关联。
若Z已知,则对X的了解不会影响关于Z的信度,进而也不会影响关于Y的信度;反之亦然。所以,此时X和Y之间的信息通路被阻塞,X和Y相互条件独立。
(b) 分连
如图1.3.1(b)所示,为分连结构。它与顺连情况类似。
当Z未知,信息可以在X和Y之间传递,它们相互关联。
当Z已知时,信息不能在X和Y之间传递,它们相互条件独立。
在Alarm网络中,警铃响(A)后Mary(M)和John(J)都可能打电话,即有分连结构:。若未知警铃状态,此时接到Mary电话,则对『警铃响』的信度增大,从而会进一步期望John的电话,所以在未知A时,M和J时相互关联的。但如果事先知道警铃状态(比如知道警铃被关闭了),则不会做出这样的推理,即已知A后,M和J条件独立。
(c) 汇连
如图1.3.1(c)所示,为汇连结构。它与分连恰恰相反。
分连代表一因多果,汇连代表一果多因。汇连的信息通道性质与分连相反,即在未知Z时,X和Y相互独立,而在已知Z时,X和Y是相互关联的。
在Alarm网络中,盗窃(B)和地震(E)都会触发警铃(A),从而有汇连结构:。若未知警铃状态,得知『发生了地震』并不会改变的『发生了盗窃』信度,反之亦然。但如果知道『警铃响』,B和E则相互关联:若得知『发生了地震』,则『警铃响』就有了合理的解释,从而对『发生了盗窃』的信度会降低,反之亦然。
这种同一结果的多个解释之间此消彼长的现象称为『得释』。
一般情况
在一个贝叶斯网中,节点X和Y之间的一条通路(迹)是开始于X结束于Y的一个节点序列,其中节点各异且在序列中相邻的节点在贝叶斯网中都有边相连,如是一条通路,也是一条通路,前者所有边都指向同一方向,称为顺连通路,后者则不是顺连通路。
设Z为某通路上的一个节点。如果Z与它前后两个节点形成顺连结构,则称它为该通路的一个顺连节点;如果Z与它前后两个节点形成分连结构,则称Z为该通路的一个分连节点;如果Z与它前后两个节点形成汇连结构,则称Z为该通路的汇连节点。
设Z为一个节点集合,X和Y时不在Z中的两个节点。考虑X和Y之间的一条通路a,如果满足如下条件之一,则称a被Z阻塞:
(1)a上有一个在Z中的顺连节点;
(2)a上有一个在Z中的分连节点;
(3)a上有一个汇连节点W,它和它的后代节点均不在Z中。
上述3种情况如下图所示。
如果通路a被Z所阻塞,那么当已知Z中变量的取值时,信息就不能沿着a在X和Y之间传递。在前两种情况,从X来的信息不能改变关于变量Z的信度,从而不会通过Z影响关于Y的信度。而第三种情况下,W及其后代都未知,从X来的信息会从W处漏掉,从而不会到达Y。
如果X和Y之间的所有通路都被Z阻塞,那么我们就说Z有向分隔X和Y,简称D分隔。如果Z D分隔X和Y,那么X和Y在给定Z时条件独立。
1.3.2 D分隔与U分隔
对于简单的贝叶斯网,很容易判断D分隔,对于复杂的贝叶斯网,判断D分隔则较困难。此处给出一种判定D分隔的简化方法,通过对有向无回路图端正化,化简为在无向图中判断无向分隔(U分隔)。
设G为以有向无圈图。如果将G中每个节点的不同父节点结合,即在它们之间加一条边,然后去掉所有边的方向,所得到的无向图称为G的端正图(moral graph),记作,该过程称为端正化(moralization)。
如下图(a)所示,为有向无圈图,将它端正化:首先将节点R的两个父节点T和L连接,再把D的两个父节点R和B连接,最后去掉所有边的方向,结果如下图(b)所示。
设Y是有向无圈图G中的一个节点集合,G在Y上的限制,记为,是从G中出去所有不属于Y的节点及其相连的边得到的图,如下图(c)所示,为G在集合Y={A,T,R,L,S,B}上的限制。
设X为有向无圈图G中的一个节点集合,如果其中每个节点的祖先节点都在X内,则称X是一个祖先闭集,用符号an(X)代表包含X的最小祖先闭集。如下图(a)中,{A,T,R,L,S}是一个祖先闭集,而{A,T,R,L,S,D}则不是。
在一个无向图G中,节点X和Y之间的一条通路是指从X开始到Y结束的一个节点序列,其中节点各异且在序列中相邻的节点在G中也有边相连。设X,Y,Z是G中3个两两交空的节点集合。如果从G中除去Z中的节点后,X和Y之间没有通路存在,则称Z无向分隔X和Y,简称Z U分隔X和Y。
上图(b)中,{R,L}U分隔A和D,但{R}则不U分隔A和D。容易看到『Z在G中U分隔X和Y』的充要条件是『X和Y之间的任何通路都经过Z』。
有向无圈图的D分隔与无向图的U分隔之间存在如下等价性定理,通过该定理可简化对有向无圈图中D分隔的判定。
定理1.3.1 有向分隔与无向分隔
设X,Y,Z是有向无圈图G中3个两两交空的节点集合。首先把G限制在上,再对其端正化,得到无向图G'。那么,集合Z在G中D分隔X和Y的充要条件是它在G'中U分隔X和Y。
该定理的证明比较复杂,这里不再列出。但该定理容易直观理解。考虑下图(a)所示的有向无圈图。设Z={R,L},判断Z是否D分隔A和S。我们将其转化到端正图上进行考察,首先求得Y=an{A,S,R,L}={A,T,R,L,S},将图(a)限制在Y上,得到图(b),再对其端正化,得到图(c),从中很容易看出,Z可以U分隔A和S,进而可判定在图(a)上,{R,L}D分隔A和S。同样,若Z={R},从图(c)中可以看出{R}并不能U分隔A和S,进而可以在有向无回路图上做出判断。
1.3.3 祖先闭集与贝叶斯子网
从一个贝叶斯网中除去某个节点意味着删除这个节点以及与该节点相连的边和概率分布。一般来说,从贝叶斯网中除去某个节点,所剩下的不一定是一个贝叶斯网。例如,在Alarm网络中,除去节点B所得到的就不是一个贝叶斯网。它要成为贝叶斯网,A的概率分布应该时P(A|E),但除去B后所剩下的却是P(A|B,E)。但从贝叶斯网中除去一个叶节点,所剩下的一定还是一个贝叶斯网。
实际上,我们可以证明贝叶斯网中的任意一个祖先闭集仍是贝叶斯网,且各变量的分布函数与原贝叶斯网保持一致。该结论的证明思路为:首先证明删除叶节点不影响剩余节点的分布函数,然后通过逐个删除祖先闭集以外的叶节点来达到目的,因此需先证明两个引理。
引理1.3.1 删除叶节点不影响剩余节点的分布函数
设N是一个贝叶斯网,Y是它的叶节点,N'是从N中除去Y后得到的贝叶斯网。令X为N'中所有节点的集合,那么有:
即X在N中的分布函数与它在N'中的分布函数相同,或者说从N中除去Y不会影响X的分布函数。
证明:
引理得证。
引理1.3.2 祖先闭集外若有节点,必存在叶节点
如果X是贝叶斯网N中的一个祖先闭集,而且在X之外有节点存在,那么在X之外一定存在一个叶节点。
证明:
设Y为X之外的一个节点。若Y为叶节点,引理得证。若Y不为叶节点,则Y一定有一个子节点Z。因为X是祖先闭集,且,必有。重复这样的推理,最终一定可以找到一个在X之外的叶节点。引理得证。
命题1.3.1 贝叶斯网中的祖先闭集仍为贝叶斯网,且分布函数不变
设X为贝叶斯网N中的一个祖先闭集,N'为N中除去所有不属于X的节点后得到的贝叶斯网,那么有:
即X在N中的分布函数与它在N'中的分布函数相同。
证明:
若X包含N中所有节点,命题得证。否则,根据引理1.3.2,我们一定可以找到一个叶节点。记从N中除去Y所得到的贝叶斯网为,在中,X仍是一个祖先闭集。因此可重复以上过程,直到所有不属于X的节点都被除去,最终将得到贝叶斯网N'。根据引理1.3.1,在此过程中X的分布函数始终保持不变,故。命题得证。
1.3.4 D分隔与条件独立的等价关系
我们前面已经多次提到D分隔意味着条件独立,本小节将给出严格的证明,并给出两种最常见的D分隔集合,包括由马尔可夫边界给出的独立性和由父节点集合给出的独立性。
首先来看一个命题。
命题1.3.2
设X,Y和Z为贝叶斯网N中的3个凉凉交空的集合,且它们的并集为N中所有节点(X,Y,Z为N的一个划分)。如果Z D分隔X和Y,那么X和Y在给定Z时条件独立,即.
证明:
如上图所示,设是Z中所有父节点属于X的节点集合,。
首先证明第一个结论:对任意.
当时,若,即是说W有父节点在Y中,这与X和Y被Z D分隔相矛盾。
当时,它必有一个父节点在X中。若,那么它又有一个父节点在Y中,这与X和Y被Z D分隔相矛盾。
所以,对任意,必有。
接下来证明第二个结论:对任意.
当时,必有,否则就与Z D分隔X和Y矛盾。
当时,按照的定义,W没有父节点在X中。因此有。
所以,对任意,必有。
最后考虑所有变量的联合分布:
根据前面两个结论,式中第一项是X和Z的函数,记为f(X,Z);式中第二项为Z和Y的函数,记为g(Z,Y)。于是,上式可改写为:
因此有:
命题得证。
定理1.3.2 整体马尔可夫性
设x和y为贝叶斯网N中的两个变量,Z为N中一个不包含x和y的节点集合。如果Z D分隔x和y,那么x和y在给定Z时条件独立,即:
证明:
由于命题1.3.1,是一个贝叶斯网N'。设X为所有未被Z将其与x D分隔的节点的集合,则;设Y为所有既不在X也不在Z里的节点集合,则。由命题1.3.2,。所以一定存在函数f(X,Z)和g(Z,Y)使得:
令,则上式可改写为:
于是有:
所以:
定理得证。
该定理表明,在贝叶斯网中,D分隔意味着条件独立。D分隔时图论的概念,条件独立是概率论 概念,该定理揭示了贝叶斯网的图论侧面与概率论侧面的等价性。
由该定理,我们还可以得到一个两个有意思的推论,即给定马尔可夫边界的独立性和给定父节点集合的独立性。
首先给出马尔可夫边界的定义。在贝叶斯网中,一个节点X的马尔可夫边界包括其父节点、子节点,以及子节点的父节点,即.
推论1.3.1 马尔可夫边界与独立性
在一个贝叶斯网中,给定变量x的马尔可夫边界mb(x),则x条件独立于网络中所有其它变量。
证明:
设Y是网络中所有其它变量的集合。如下图所示,考虑从x触发到Y中某一节点的一条通路a,设r时a离开mb(x)之前的最后一个节点。根据mb(x)的定义,a在r处的连接方式一定是分连或顺连。因此,a被mb(x)所阻塞。由于a的任意性,mb(x) D分隔x和Y。所以,给定mb(x),x与Y条件独立。推论得证。
推论1.3.2 父节点集与独立性(局部马尔可夫性)
在一个贝叶斯网中,给定变量x的父节点集,则x条件独立于它的所有非后代节点,即:
证明:
因为定理1.3.2(整体马尔可夫性),只需证明 D分隔x和.
考虑从x到中某一节点y的一条通路a,用r记其中与x相邻的节点。如下图所示,有两种情况:
(1),此时a在r处的连接一定时分连或顺连,因此a被所阻塞;
(2),此时,由于y不是x的后代节点,所以a中一定存在一个汇连节点r',且,因此a被所阻塞。
由于y和r的任意性, D分隔x和.推论得证。
上一节曾提到利用因果机制独立构建贝叶斯网络的效果往往不错,实际上就是基于因果马尔可夫假设,即:
因果马尔可夫假设:给定一个变量x的直接原因(父节点),该变量条件独立于所有那些不是它的直接或间接结果(非后代节点)的变量。