概率图模型(快速入门必备)

概率图模型

概率图模型Graphical Models简介
        概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。概率图模型理论分为概率图模型表示理论,概率图模型推理理论和概率图模型学习理论。近10年它已成为不确定性推理的研究热点,在人工智能、机器学习和计算机视觉等领域有广阔的应用前景。


为什么要引入概率模型
        对于一般的统计推断问题,概率模型能够很好的解决,那么引入概率图模型又能带来什么好处呢?
        LDPC码的译码算法中的置信传播算法的提出早于因子图,这在一定程度上说明概率图模型不是一个从不能解决问题到解决问题的突破,而是采用概率图模型能够更好的解决问题。《模式识别和机器学习》这本书在图模型的开篇就阐明了在概率模型中运用图这一工具带来的一些好的性质,包括:

  1. 它们提供了一种简单的方式将概率模型的结构可视化,可以用于设计新的模型。
  2. 通过观察图形,我们可以更深刻地认识模型的性质,包括条件独立性质。
  3. 高级模型的推断和学习过程中的复杂计算可以根据图计算表达,图隐式地承载了背后的数学表达式。
        简而言之,就是图使得概率模型可视化了,这样就使得一些变量之间的关系能够很容易的从图中观测出来;同时有一些概率上的复杂的计算可以理解为图上的信息传递,这是我们就无需关注太多的复杂表达式了。最后一点是,图模型能够用来设计新的模型。所以多引入一数学工具是可以带来很多便利的,我想这就是数学的作用吧。   

结构化模型
        “结构化概率模型”(structured probabilistic model),是一类用图形模式表达基于概率相关关系的模型的总称,也称“图模型”(graphical model)英文简称,PGM。
        概率图模型具有图论和概率论两大理论基础,是生成模型的基础。因此它可以很好地表现运动特征、实体(中间语义)及行为之间的关系,可以为人体行为描述提供了一个自然结构。概率图模型不仅能准确描述视频中复杂概率现象的统计学本质,而且可以控制模型的计算代价,形成有效的生成算法。
        结构化概率模型使用图来表示随机变量之间的相互作用。每一个结点就代表一个随机变量。每一条边就代表一个直接相互作用,这些直接相互作用隐含着其他的间接相互作用,但是只有直接的相互作用会被显式的建模

PGM体系结构
概率图模型(快速入门必备)_第1张图片

PGM理论研究并解决三个问题

  1. 表示(如何通过图来刻画多个随机变量之间的关系)(注:这个是PGM的基础)
  2. 学习(如何通过已知数据来确定图的参数) (注:机器学习主要研究这个问题)
  3. 推断(如果根据已知图,来推断出想要的统计结论) (注:消息传递主要研究这个问题)

Graphical Model的基本类型
        基本的Graphical Model 可以大致分为两个类别:贝叶斯网络(Bayesian Network)和马尔可夫随机场(Markov Random Field)。
        它们的主要区别在于采用不同类型的图来表达变量之间的关系:贝叶斯网络采用有向无环图(Directed Acyclic Graph)来表达因果关系,马尔可夫随机场则采用无向图(Undirected Graph)来表达变量间的相互作用。

  • 将随机变量作为结点,若两个随机变量相关或者不独立,则将二者连接一条边;若给定若干随机变量,则形成一个有向图,即构成一个 网络
  • 如果该网络是有向无环图,则这个网络称为 贝叶斯网络
  • 如果这个图退化成线性链的方式,则得到 马尔可夫模型 ;因为每个结点都是随机变量,将其看成各个时刻(或空间)的相关变化,以随机过程的视角,则可以看成是 马尔可夫过程
  • 若上述网络是无向的,则是无向图模型,又称 马尔可夫随机场或者马尔可夫网络
  • 如果在给定某些条件的前提下,研究这个马尔可夫随机场,则得到 条件随机场
  • 如果使用条件随机场解决标注问题,并且进一步将条件随机场中的网络拓扑变成线性的,则得到 线性链条件随机场

有向图模型(贝叶斯网络)
        有向(directed)模型 使用带有有向边的图,它们用条件概率分布来表示分解,有向模型对于分布中的每个随机变量Xi都包含着一个影响因子,这个组成Xi条件概率的影响因子被称为Xi的父节点,记为PaG(Xi)。
在这里插入图片描述
下图给出了一个有向图的例子以及表示它的概率分布分分解。
概率图模型(快速入门必备)_第2张图片
上图中关于随机变量a、b、c、d和e的有向图模型。这幅图对应的概率分布可以分解为
         在这里插入图片描述
该图模型使我们能够快速看出此分布的一些性质。例如,a和c直接相互影响,但a和e只有通过c间接相互影响。
有向图模型,或称贝叶斯网络,描述的是条件概率,或许这就是其被称为贝叶斯网络的原因吧。

无向图模型(马尔可夫随机场)
        无向模型,马尔可夫随机场( Markov random fields ),也被称为无向图模型( undirected graphical models )。这个模型中,链接没有箭头,没有方向性质。
        如果两个节点之间独立,那么没有路使其相连。条件独立即去掉条件中节点后,两节点之间没有路相连。具体可由《PATTERN RECOGNITION and MACHINE LEARNING》中的例子阐述
概率图模型(快速入门必备)_第3张图片
        考虑连接集合A和B的节点的所有可能路径,如果所有路径都通过集合C中一个或者多个节点,那么所有这样的路径都被“阻隔”,条件独立性质成立;如果存在至少一条未被阻隔的路径,那么条件独立性质就未必成立,专业点就是说:存在至少某些对应于图的概率分布不满足条件独立性质。
         另一种检测方法是,将图中属于集合C的节点以及与这些节点相连的连接线全部删除,然后再看有没有从A到B的路径。如果没有,那么条件独立一定成立。

  • 全局马尔可夫性
    设结点集A,B在无向图G中被结点集合C分开的任意结点的集合,则在给定了集合C的条件下结点集合A和B之间是相互独立的,具体表达式如下
    在这里插入图片描述
  • 由全局马尔可夫性可得到两个很有用的推论
    1.局部马尔可夫性
    设v是无向图G中的任意结点,W是与v有边连接的所有结点,O是v,W以外的所有结点(相当于W将v和O给隔开了)。则在给定W的条件下,v和O之间是相互独立的,表达式如下
    在这里插入图片描述
    2.成对马尔可夫性
    设u和v是无向图G中任意两个没有边连接的结点(也就是说两个之间没有依赖的关系),结点u和v分别对应随机变量Yu和Yv。其他所有结点为O,对应的随机变量组是YO。则成对马尔科夫性的表达式如下
    在这里插入图片描述
    上面式子的意思是在给定了随机变量组YO的条件下随机变量Yu和Yv是条件独立的。
    仔细观察发现这三种性质实质上是等价的,成对马尔科夫性和局部马尔科夫性都可以看作是全局马尔科夫性的特殊形式。那这三种性质提出来有什么用呢?首先满足这三种性质的联合概率分布P(Y)可以称为马尔科夫随机场或者概率无向图模型。而对于马尔科夫随机场,可以将联合概率分布P(Y)拆分成多个因子的乘积,这样就便于计算P(Y)。

因子图
        因子图是概率图的一种,概率图有很多种,最常见的就是贝叶斯网络和马尔可夫随机场。
        在概率图中,求某个变量的边缘分布是常见的问题。这问题有很多求解方法,其中之一就是可以把贝叶斯网络和马尔可夫随机场转换成因子图,然后用sum-product算法求解。基于因子图可以用sum-product算法可以高效的求各个变量的边缘分布。

更详细的理解
  将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图。
  所谓因子图,就是对函数因子分解的表示图,一般内含两种节点,变量节点和函数节点。我们知道,一个全局函数能够分解为多个局部函数的积,因式分解就行了,这些局部函数和对应的变量就能体现在因子图上。
  在概率论及其应用中, 因子图是一个在贝叶斯推理中得到广泛应用的模型。

sum-product算法
  在因子图中,所有顶点,要不然就是变量节点不然就是函数节点,边线表示他们之间的函数关系。在讲解朴素贝叶斯和马尔可夫的时候,我们变线上标注的符 号,也就是Psi函数表示符号,就是表示我们模型中x和y的联系函数。Psi函数在不同的环境下有着不同的含义,因此解释这种东西总是比较棘手的。在动态模型里面,或者任何其他的图概率模型,都是可以用因子图表示的,而Psi在这里,表征的通常都是概率或者条件概率。 因子图和Psi函数表示法,在machine learning的paper中是比较常用的。

例:该公式等价于下图
在这里插入图片描述
概率图模型(快速入门必备)_第4张图片
下面就是隐马尔可夫模型的因子图:
概率图模型(快速入门必备)_第5张图片

参考文章:
[1].https://blog.csdn.net/zr940326/article/details/82734984
[2].https://blog.csdn.net/pipisorry/article/details/51461878
[3].https://blog.csdn.net/xw_2_xh/article/details/103488405
[4].https://www.cnblogs.com/Dzhouqi/p/3204353.html
[5].https://www.zhihu.com/question/35866596
[6].https://blog.csdn.net/zb1165048017/article/details/60867140
[7].https://www.cnblogs.com/jiangxinyang/p/9309742.html
[8].https://blog.csdn.net/wydbyxr/article/details/82384340  

你可能感兴趣的:(机器学习)