前面部分介绍了贝叶斯网络的结构表示以及贝叶斯网络相关的概率图模型。本节将介绍马尔可夫随机场(Markov Random Field)的 结构表示(Representation)。
基于贝叶斯网络(有向图),样本集合 X \mathcal X X各维度信息的联合概率分布 表示如下:
P ( X ) = ( x 1 , ⋯ , x p ) = ∏ i = 1 p P ( x i ∣ x p a ( i ) ) \mathcal P(\mathcal X) = \mathcal (x_1,\cdots,x_p) = \prod _{i=1}^p \mathcal P(x_i \mid x_{pa(i)}) P(X)=(x1,⋯,xp)=i=1∏pP(xi∣xpa(i))
其中 x p a ( i ) x_{pa(i)} xpa(i)表示结点 x i x_i xi的父结点。基于该式,贝叶斯网络中包含 三种变量之间的典型依赖关系:
详见‘贝叶斯网络的结构表示’一节
传送门
实际上,可以通过使用有向分离( D \mathcal D D划分,D-Separation)更泛化地判断有向图中变量间的条件独立性。
详见‘贝叶斯网络之有向分离(D划分)’一节。
传送门
马尔可夫随机场是一种无向图表示方法,相比于贝叶斯网络(有向图),由于没有箭头指向,因此无向图中变量之间的依赖关系 使用一种方式即可表示:
对应数学符号表示如下:
i 2 ⊥ i 3 ∣ i 1 i_2 \perp i_3 \mid i_1 i2⊥i3∣i1
在马尔可夫随机场中,变量之间条件独立性的判别 同样可以使用 类似 D \mathcal D D划分的方式 进行描述。不同于贝叶斯网络的 D \mathcal D D划分,马尔可夫随机场中的“ D \mathcal D D划分”被缩略为一条规则:
场景构建:
如果变量 l a l_a la与变量 l c l_c lc之间相互独立,必然需要 l b 1 , l b 2 , ⋯ l_{b_1},l_{b_2},\cdots lb1,lb2,⋯中至少存在一点位于变量集合 x B x_{\mathcal B} xB中。如果存在结点 l b k l_{b_k} lbk满足如下条件:
此时,给定变量集合 x B x_{\mathcal B} xB的结点信息,则有:
l a ⊥ l c ∣ l b k l_a \perp l_c \mid l_{b_k} la⊥lc∣lbk
图像表示如下:
这种规则在无向图中也被称为全局马尔可夫性(Global Markov Property):给定两个变量子集的分离集,则两个变量子集相互独立。
也就是说, x A x_{\mathcal A} xA集合中的任意点与 x C x_{\mathcal C} xC中的任意点之间如果存在路径,并且所有路径均满足上述情况,则 x A ⊥ x C ∣ x B x_{\mathcal A}\perp x_{\mathcal C} \mid x_{\mathcal B} xA⊥xC∣xB。对应图像表示如下:
观察上图,任意一个由 x A x_{\mathcal A} xA发射到 x C x_{\mathcal C} xC的路径,均经过 x B x_{\mathcal B} xB中的结点。
对应‘贝叶斯网络’,这里是‘马尔可夫随机场’对全局马尔可夫性的使用。
观察 i 1 i_1 i1结点,与其直接相连的变量有三个,分别是 i 2 , i 3 , i 4 i_2,i_3,i_4 i2,i3,i4。如果 给定 i 2 , i 3 , i 4 i_2,i_3,i_4 i2,i3,i4条件下,变量 i 1 i_1 i1将条件独立于 i 5 , i 6 i_5,i_6 i5,i6。
称变量 i 2 , i 3 , i 4 i_2,i_3,i_4 i2,i3,i4是变量 i 1 i_1 i1的邻接变量。局部马尔可夫性的具体概念如下:给定某变量的邻接变量,则该变量条件独立于图中除该变量及邻接变量的其他所有变量:
局部马尔可夫性的数学符号表达如下:
v ⊥ { V − v − n ( v ) } ∣ n ( v ) v \perp \{\mathcal V - v - n(v)\} \mid n(v) v⊥{V−v−n(v)}∣n(v)
上述示例的局部马尔可夫性表达为:
i 1 ⊥ { i 5 , i 6 } ∣ { i 2 , i 3 , i 4 } i_1 \perp \{i_5,i_6\} \mid \{i_2,i_3,i_4\} i1⊥{i5,i6}∣{i2,i3,i4}
依然使用上述马尔可夫随机场为例,其中结点 i 1 , i 6 i_1,i_6 i1,i6是两个非邻接变量。如果 给定除去 i 1 , i 6 i_1,i_6 i1,i6之外的其他变量结点,则变量 i 1 , i 6 i_1,i_6 i1,i6之间条件独立:
成对马尔可夫性的具体概念如下:给定图中除两个非邻接变量的其他所有变量,这两个非邻接变量条件独立:
局部马尔可夫性的数学符号表示如下:
x i ⊥ x j ∣ x − i − j b a s e d < x i , x j > ∉ E x_i \perp x_j \mid x_{-i-j} \quad based
综上,马尔可夫随机场的条件独立性体现为三个方面:全局、局部、成对马尔可夫性。并且这三种性质相互等价。
回顾贝叶斯网络的因子分解:
由于是有向边,可以通过拓扑排序的方式直接找到结点之间的关联关系:
由于马尔可夫随机场对应概率图是无向图,结点之间的边只能表示结点之间存在相关性,而不能表示结点之间显式的因果关系。
如何使用因子分解表示马尔可夫随机场的条件独立性?
团本身是关于结点的集合,其定义表示如下:对于图中结点的一个子集,若该子集内部任意两结点之间都有边连接,则称该结点子集是一个团(Clique)。
已知一个马尔可夫随机场表示如下:
根据团的定义,上述示例中可以找到如下几种团:
{ i 0 , i 1 } , { i 1 , i 2 , i 3 } , { i 1 , i 2 } , { i 2 , i 3 } , { i 1 , i 3 } , { i 3 , i 4 } \{i_0,i_1\},\{i_1,i_2,i_3\},\{i_1,i_2\},\{i_2,i_3\},\{i_1,i_3\},\{i_3,i_4\} {i0,i1},{i1,i2,i3},{i1,i2},{i2,i3},{i1,i3},{i3,i4}
而极大团(Maximal Clique)表示:在一个团中加入任意一个结点后都不再形成团,称该团为极大团。
如上述团 { i 0 , i 1 } \{i_0,i_1\} {i0,i1},如果加入 i 2 i_2 i2,由于 i 0 , i 2 i_0,i_2 i0,i2之间没有边,因此无法构成团。因此 { i 0 , i 1 } \{i_0,i_1\} {i0,i1}是极大团;
同理, { i 1 , i 2 , i 3 } , { i 3 , i 4 } \{i_1,i_2,i_3\},\{i_3,i_4\} {i1,i2,i3},{i3,i4}都是极大团。
使用团表示马尔可夫随机场中结点的联合概率分布:
将联合概率分布 P ( X ) \mathcal P(\mathcal X) P(X)表示如下:
P ( X ) = 1 Z ∏ i = 1 K ψ ( x C i ) \mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K} \psi(x_{\mathcal C_i}) P(X)=Z1i=1∏Kψ(xCi)
注意,这里的
x x x是指变量维度 ->
( x 1 , ⋯ , x p ) (x_1,\cdots,x_p) (x1,⋯,xp)这里介绍西瓜书中的证明过程。
既然通过势函数 ψ ( x C i ) ( i = 1 , 2 , ⋯ , K ) \psi(x_{\mathcal C_i})(i=1,2,\cdots,\mathcal K) ψ(xCi)(i=1,2,⋯,K)将联合概率分布 P ( X ) \mathcal P(\mathcal X) P(X)分解称如下形式:
P ( X ) = 1 Z ∏ i = 1 K ψ ( x C i ) \mathcal P(\mathcal X) = \frac{1}{\mathcal Z} \prod_{i=1}^{\mathcal K}\psi(x_{\mathcal C_i}) P(X)=Z1i=1∏Kψ(xCi)
基于该公式,我们需要证明: x C i ( i = 1 , 2 , ⋯ , K ) x_{\mathcal C_i}(i=1,2,\cdots,\mathcal K) xCi(i=1,2,⋯,K)的条件独立性。
基于全局马尔可夫性,马尔可夫随机场的结点结构是单一的,假设三个团 x C 1 , x C 2 , x C 3 x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3} xC1,xC2,xC3结构表示如下:
只需要证明:给定团 x C 2 x_{\mathcal C_2} xC2的条件下,团 x C 1 x_{\mathcal C_1} xC1和团 x C 3 x_{\mathcal C_3} xC3条件独立即可。即:
P ( x C 1 , x C 3 ∣ x C 2 ) = P ( x C 1 ∣ x C 2 ) ⋅ P ( x C 3 ∣ x C 2 ) \mathcal P(x_{\mathcal C_1},x_{\mathcal C_3} \mid x_{\mathcal C_2}) = \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) \cdot \mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2}) P(xC1,xC3∣xC2)=P(xC1∣xC2)⋅P(xC3∣xC2)
等式左侧:
规范化因子
Z \mathcal Z Z消掉了。
等式右侧:首先 观察 P ( x C 1 ∣ x C 2 ) \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) P(xC1∣xC2)。和等式左侧展开方式相似,但需要对分子、分母均执行积分运算:
P ( x C 1 ∣ x C 2 ) = P ( x C 1 , x C 2 ) P ( x C 2 ) = ∑ x C 3 P ( x C 1 , x C 2 , x C 3 ) ∑ x C 1 , x C 3 P ( x C 1 , x C 2 , x C 3 ) \begin{aligned} \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) & = \frac{\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2})}{\mathcal P(x_{\mathcal C_2})} \\ & = \frac{\sum_{x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_1},x_{\mathcal C_3}}\mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3})} \end{aligned} P(xC1∣xC2)=P(xC2)P(xC1,xC2)=∑xC1,xC3P(xC1,xC2,xC3)∑xC3P(xC1,xC2,xC3)
使用势函数对联合概率分布 P ( x C 1 , x C 2 , x C 3 ) \mathcal P(x_{\mathcal C_1},x_{\mathcal C_2},x_{\mathcal C_3}) P(xC1,xC2,xC3)进行展开:
Z , ∑ x C 3 ψ C 1 C 3 ( x C 1 , x C 3 ) \mathcal Z,\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3}) Z,∑xC3ψC1C3(xC1,xC3)被消掉。
P ( x C 1 ∣ x C 2 ) = 1 Z ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ∑ x C 3 ψ C 1 C 3 ( x C 1 , x C 3 ) 1 Z ∑ x C 1 ψ C 1 C 2 ( x C 1 , x C 2 ) ⋅ ∑ x C 3 ψ C 1 C 3 ( x C 1 , x C 3 ) = ψ C 1 C 2 ( x C 1 , x C 2 ) ∑ x C 1 ψ C 1 C 2 ( x C 1 , x C 2 ) \begin{aligned} \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) & = \frac{\frac{1}{\mathcal Z}\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}}\psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})}{\frac{1}{\mathcal Z}\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2}) \cdot \sum_{x_{\mathcal C_3}} \psi_{\mathcal C_1\mathcal C_3}(x_{\mathcal C_1},x_{\mathcal C_3})} \\ & = \frac{\psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})}{\sum_{x_{\mathcal C_1}} \psi_{\mathcal C_1\mathcal C_2}(x_{\mathcal C_1},x_{\mathcal C_2})} \end{aligned} P(xC1∣xC2)=Z1∑xC1ψC1C2(xC1,xC2)⋅∑xC3ψC1C3(xC1,xC3)Z1ψC1C2(xC1,xC2)⋅∑xC3ψC1C3(xC1,xC3)=∑xC1ψC1C2(xC1,xC2)ψC1C2(xC1,xC2)
同理, P ( x C 3 ∣ x C 2 ) \mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2}) P(xC3∣xC2)和 P ( x C 1 ∣ x C 2 ) \mathcal P(x_{\mathcal C_1} \mid x_{\mathcal C_2}) P(xC1∣xC2)存在相同的展开方式,对应结果表示如下:
P ( x C 3 ∣ x C 2 ) = ψ C 2 C 3 ( x C 2 , x C 3 ) ∑ x C 3 ψ C 2 C 3 ( x C 2 , x C 3 ) \mathcal P(x_{\mathcal C_3} \mid x_{\mathcal C_2}) = \frac{\psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})}{\sum_{x_{\mathcal C_3}} \psi_{\mathcal C_2\mathcal C_3}(x_{\mathcal C_2},x_{\mathcal C_3})} P(xC3∣xC2)=∑xC3ψC2C3(xC2,xC3)ψC2C3(xC2,xC3)
至此,等式左侧 = 等式右侧,证毕。
至此,可证明势函数对联合概率分布 的表达可以表示团之间的条件独立性。
势函数的本质 -> 在介绍完‘玻尔兹曼机’时再回顾介绍。
马尔可夫毯(Markov Blanket)是一个由结点组成的集合。在马尔可夫随机场中表示为:某变量的所有邻接变量组成的集合。
马尔可夫毯的性质在局部马尔可夫性中得到了描述:如果给定某变量的马尔可夫毯,无向图中除去该变量及对应马尔可夫毯之外的所有变量与该变量条件独立。
马尔可夫毯的这种性质,可以将其视为一种屏障:只要该屏障被给定,意味着马尔可夫毯所包围的结点与马尔可夫毯外的其他结点相互独立。
但实际上,马尔可夫毯并不是马尔可夫随机场中特有的描述,在贝叶斯网络中,同样存在马尔可夫毯。
以某贝叶斯网络的结点 x i x_i xi为例,假设该贝叶斯网络中一共包含 p p p个结点(对应数据集合 X \mathcal X X的 p p p个特征变量),结点 x i x_i xi的条件概率 表示如下:
这里为了简化起见,使用
x − i x_{-i} x−i替代。即除去
x i x_i xi的其他结点。
P ( x i ∣ x 1 , ⋯ , x i − 1 , x i + 1 , ⋯ , x p ) = P ( x i ∣ x − i ) \mathcal P(x_i \mid x_1,\cdots,x_{i-1},x_{i+1},\cdots,x_p) = \mathcal P(x_i \mid x_{-i}) P(xi∣x1,⋯,xi−1,xi+1,⋯,xp)=P(xi∣x−i)
我们将其展开:
x i x_i xi设为‘离散型随机变量’,因此,它的积分形式是
∑ x i \sum_{x_i} ∑xi
P ( x i ∣ x − i ) = P ( x i , x − i ) P ( x − i ) = P ( X ) ∑ x i P ( X ) \begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\mathcal P(x_i,x_{-i})}{\mathcal P(x_{-i})} \\ & = \frac{\mathcal P(\mathcal X)}{\sum_{x_i} \mathcal P(\mathcal X)} \end{aligned} P(xi∣x−i)=P(x−i)P(xi,x−i)=∑xiP(X)P(X)
将贝叶斯网络因子分解 公式代入上式:
P ( x i ∣ x − i ) = ∏ j = 1 p P ( x j ∣ x p a ( j ) ) ∑ x i ∏ j = 1 p P ( x j ∣ x p a ( j ) ) \begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\prod_{j=1}^p \mathcal P(x_j \mid x_{pa(j)})}{\sum_{x_i} \prod_{j=1}^p \mathcal P(x_j \mid x_{pa(j)})} \end{aligned} P(xi∣x−i)=∑xi∏j=1pP(xj∣xpa(j))∏j=1pP(xj∣xpa(j))
观察分母,它的积分只限制 x i x_i xi相关的结点,与 x i x_i xi无关的结点都可视作常数,并与分子中的 x i x_i xi无关结果消掉:
假设与 x i x_i xi相关的结点集合为 Δ \Delta Δ,则有:
P ( x i ∣ x − i ) = ∏ j ∉ Δ P ( x j ∣ x p a ( j ) ) ⋅ ∏ j ∈ Δ P ( x j ∣ x p a ( j ) ) ∏ j ∉ Δ P ( x j ∣ x p a ( j ) ) ⋅ ∑ x i ∏ j ∈ Δ P ( x j ∣ x p a ( j ) ) = ∏ j ∈ Δ P ( x j ∣ x p a ( j ) ) ∑ x i ∏ j ∈ Δ P ( x j ∣ x p a ( j ) ) \begin{aligned} \mathcal P(x_i \mid x_{-i}) & = \frac{\prod_{j \notin \Delta} \mathcal P(x_j \mid x_{pa(j)}) \cdot \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})}{\prod_{j \notin \Delta} \mathcal P(x_j \mid x_{pa(j)}) \cdot \sum_{x_i} \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})} \\ & = \frac{\prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})}{\sum_{x_i} \prod_{j \in \Delta} \mathcal P(x_j \mid x_{pa(j)})} \end{aligned} P(xi∣x−i)=∏j∈/ΔP(xj∣xpa(j))⋅∑xi∏j∈ΔP(xj∣xpa(j))∏j∈/ΔP(xj∣xpa(j))⋅∏j∈ΔP(xj∣xpa(j))=∑xi∏j∈ΔP(xj∣xpa(j))∏j∈ΔP(xj∣xpa(j))
至此,在求解 x i x_i xi变量的条件概率时,将范围从特征集合中的所有结点 缩小到 与 x i x_i xi相关的若干结点。
我们要判定哪些结点是否与 x i x_i xi存在关联?
至此,贝叶斯网络中,某结点 x i x_i xi的马尔可夫毯表示如下:
该图只是一个子图,延伸的部分略。
通过观察发现,贝叶斯网络的马尔可夫毯和马尔可夫随机场的存在一定区别: i 5 , i 6 i_5,i_6 i5,i6和 i 1 i_1 i1之间没有边相连接。
但如果将上述图像转化为道德图,观察转化结果:
观察发现,转换成道德图中, i 0 , i 2 , i 3 , i 4 , i 5 , i 6 i_0,i_2,i_3,i_4,i_5,i_6 i0,i2,i3,i4,i5,i6都与 i 1 i_1 i1组成了临接变量关系。
下一节将介绍推断(Inference)。
相关参考:
机器学习-周志华著
机器学习-概率图模型3-贝叶斯网络-Representation-D-Separation
机器学习-概率图模型5-马尔可夫随机场-Representation-条件独立性