概率图模型之马尔可夫随机场

马尔可夫随机场(MRF)是典型的马尔可夫网,不同于隐马尔可夫模型,MRF是一种无向图模型。图中每个结点表示一个或一组变量,结点之间的边表示两个变量的依赖关系。MRF有一组势函数,也可称为“因子”,这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。

概率图模型之马尔可夫随机场_第1张图片 标题马尔可夫随机场                                            

 如上图所示,这就是一个简单的马尔可夫随机场。对于图中结点的一个子集,若其中任意两点都有边连接,则称该结点子集为“团”。若在一个图中加入任何一个结点均不再构成团,则称该团为"极大团"。在上图中,团有{x1,x2}、{x1,x3}、{x2,x4}、{x2,x5}、{x2,x6}、{x3,x5}、{x5,x6}和{x2,x5,x6},其中除了{x2,x5}、{x2,x6}、{x5,x6}之外都是极大团。

在马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解成多个因子的乘积,每个因子仅与一个团相关。具体来说,对于n个变量x={x1,x2,,,xn},所有团构成的集合为C,与团Q∈C对应的变量集合记为xQ,则联合概率分布P(x)定义为:

                                        

 在上面的描述中,C为所有团构成的集合,Q表示一个团,是C集合的元素。同时Q也是一个集合,元素是构成集合Q的所有结点,用xQ表示。C:{Q1:{xQ...} , Q2: {xQ...}  .......}            表示团Q的势函数,P(x)的含义就是所有团的势函数的乘积 其中                            Z=为规范化因子,含义就是针对每一个结点x,所有包含该结点的团的势函数的乘积,然后对图中所有的结点x进行求和。以确保P(x)是被正确定义的概率。

但是在实际应用中,Z的精确值很难被估计。显然,若变量数量变多,则团的数量将会多出很多,大量的乘积项会给计算带来负担。注意到若Q不是极大团,则它必被一个极大团Q*所包含。于是联合概率P(x)可基于极大团来定义。假定所有极大团构成的集合为C*,则有:

                                                  

其中Z*为规范化因子,

以上图的马尔可夫随机场为例,P(x)可定义为:

            

其中由于极大团{x2,x5,x6}的存在,使得我们不再需要团{x2,x5}、{x2,x6}、{x5,x6}。

马尔可夫随机场的条件独立

在马尔可夫随机场中,得到”条件独立“可以借助“分离”的概念。在下图所示中,若从结点集A中的结点到B中的结点都必须经过结点集C中的结点,则称结点集A和B被结点集C分离,C称为分离集。

                                概率图模型之马尔可夫随机场_第2张图片

对马尔可夫随机场有三个性质,分别是"全局马尔可夫性"、“局部马尔可夫性”和“成对马尔可夫性”,后两个性质是第一个性质的推论。

1.全局马尔可夫性

"全局马尔可夫性"指给定两个变量子集的分离集,则这两个变量子集条件独立。以上图为例,xA、xB 和xC,则xA和xB在给定xC的条件下独立,记为xA⊥xB|xC。为了便于讨论,用ABC分别代表xA、xB 和xC作简化,如下图:

                                         

可以写得联合概率:(方法见上式)

为了证明在给定条件xC下xA与xB独立,

只需要证明式:成立。

根据条件概率的定义,有:

                               

                     根据全概率公式展开有

           然后用势函数表示概率P,有

                               整理后可以写成

同理可以得到P(xA|xC):概率图模型之马尔可夫随机场_第3张图片

至此,显然有成立。

2.局部马尔可夫性

由全局马尔可夫性可以得到推论:局部马尔可夫性,给定某个变量的相邻变量,则该变量条件独立于其他变量。形式化说,令V为图的结点集,n(v)为结点v在图上的相邻结点,n*(v)=n(v)U{v},有。(即结点与不相邻的结点独立)

3.成对马尔科夫性

由以上可以得到另一个推论:成对马尔可夫性,给定所有其他变量,两个非邻接变量条件独立。形式话说,令图的结点集和边集分别为V和E,对图中两个结点u和v,若不属于E,则有。(即两个结点之间无边,则两个结点独立)

 

势函数

显然,势函数的作用是刻画变量集xQ中变量之间的相关关系,它应该是非负数,且在所偏好的变量取值上有较大函数值。假定在上图中的变量均为二值变量,若势函数为:

                                   概率图模型之马尔可夫随机场_第4张图片

则说明该模型偏好变量xA与xC拥有相同的取值,xB与xC拥有不同的取值。结合式子可知,令xA与xC相同且xB与xC不同可以得到一个较高的联合概率。

为了满足非负性,势函数的定义往往使用指数函数,即:

                                   

HQ(xQ)是一个定义在变量xQ上的实值函数,常见形式为:

                           

其中a和β为参数,第一项表示两个结点直接的关系而第二项仅考虑单结点。a和β理解为两个部分的权重。

参考资料:《机器学习》周志华著,清华大学出版社

你可能感兴趣的:(机器学习,概率论,机器学习)