对于多元随机变量X1,X2
P(X1)叫做边缘概率
P(X1,X2)叫做联合概率
P(X1|X2)叫做条件概率
圈红的部分是以前语言模型常用的公式
后面是更细致的展开成积分形式
以上都是以二维为例子,在高维中计算就会变复杂
比如下图中的联合概率公式,在维度增加时,复杂度呈等差数列求和上升
全都独立有点太过理想化,实际应用往往不满足
马尔可夫链的思路就是,某一事件的发生只和前n个事件相关联
(完全相互独立可以说是0阶马尔可夫)
公式是一阶马尔可夫,横竖符号表示独立
也就是说i+1和i之前的项都无关(可能就只和i有关)
马尔科夫链也太过理想化,因为可能会有多依赖或跳跃依赖
因此引入条件独行性,公式如下
公式中XA,XB,XC都是随机变量的集合,且不相交
集合就能解决多依赖和跳跃依赖的问题
解释一下就是:
在Xc集合中的随机变量确定时,XA,XB集合中的随机变量相互独立
通过拓扑排序,就可以很简单的构造一个概率图
这里用图解释了所谓的条件独立性
也证明了有向图(贝叶斯网络)是包含了条件独立性信息的
上图这种模式的链接,称作tail to tail
可以总结:在尾巴指向的变量前提下,箭头指向的两个随机变量相互独立
这张图的模式的链接,称作head to tail
可以总结:在中间变量的前提下,两边的两个随机变量相互独立
这张图这种模式的链接,称作head to head
可以总结:在c的情况下,ab有关系(即使原本是独立的)
这里ab原本独立很好推,但是ab有关系就很难推
对于随机变量集合A,B,C
如果满足以下两条件:
那么就可以确定A,B,C满足以下条件独立性:
然后在分母连乘符号里面把和Xi不相关的项提到积分号外,并且与分子约掉。剩下的部分,就是和Xi相关的。
对于随机变量集合A,B,C
如果满足以下条件:
那么就可以确定A,B,C满足以下条件独立性:
团:节点的集合,且节点之间都是连通的(有边直接连接)
K是最大团的个数
XCi是指团中随机变量组成的集合
Φ是势函数,应该是一个非负函数,常为指数
Z是归一化因子,满足下式:
查阅了一些资料,比较好的是下面这篇:https://blog.csdn.net/qq_23947237/article/details/78387894
这里写一下自己的理解:
这个定理是说:基于最大团的因子分解方法可以和马尔可夫随机场相互转化
是函数是人为定义的,只要能尽量模拟真实的情况就可以
这里介绍一种。
E函数叫做能量函数,来自于统计物理和热力学
当取这个势函数时,X的分布函数P(X)也称作吉布斯分布/玻尔兹曼分布
当把上述势函数带入分布函数P(X),可以发现P(X)是符合指数族分布的形式的。
根据最大熵原理可知,吉布斯分布/指数族分布具有最大熵
(至于这个最大熵有啥意义,我就不清楚了)
所谓的推断,其实就是求概率。
基本任务主要分以下三种:
方法上则分两种:
根据以上概率图,以计算边缘概率为例子,对方法进行说明:
(不确定这个方法是否只能计算边缘概率)
核心的规则其实很简单,如下
方法的优点就是简化了计算,缺点如下:
因此该方法只适用简单网络,更多情况下使用其变种
置信度传播是为了解决不可重用问题的一种变种
其本质思想就是把VE过程的中间变量进行存储
可以发现,计算过程中有重复的部分(前半部分)
那么可以把这些过程的计算结果储存起来,需要时就通过递推的形式进行计算,就能节省很大的计算量。
下面以无向图为例,开始讲解blief propagation
这里补充一个全类型图的通用联合概率公式,下面的推导都将基于此公式,而非无向图的因子分解(可以认为这个包含了因子分解)
观察上式1,发现其具有递推结构,故对此做出归纳如下:
其中NB(j)-i是指节点j的所有相连节点,除i节点以外。
也就是说,变量节点j的消除式是由其相连节点的消除式递推而来的。
而所谓的BP算法,其实就是先求所有mij,之后根据mij求边缘概率。
下面是详细的说明,BP算法可共分为三步:
BP算法还有一种并行式的阐述,是激发后广播的机制,并动态更新。
好处是分布式的进行运算,提高运行效率。
维特比算法可以看作是为了求解上述最短路径问题的。
维特比算法的核心就是删除部分”不可能路径“
参考:https://www.zhihu.com/question/20136144
改进方法:Sum-Product改为Max-Product
关于上式的理解:
这里容易导致困惑的地方在于:
这两个公式哪个是对的?
其实都是对的,因为是用因子式展开的(感觉因子式是很万能的,这个因子不是因子分解那个,是因子图的那个)。区别在于要不要消除E
这个概念产生的原因是因为,人们希望把有向图转为无向图(一般化)
由有向图转换得到的无向图被称为道德图
这个是从形式上进行推导出来的
在道德图中体现的条件独立性在有向图中也是成立的
因为在进行道德图转换的时候,可能会有环产生(汇流结构)
而Blief Propagation算法是不适用环结构的,因子图可以很好的解决掉环的问题
因子式:
其中s是原图(无向图或有向图)的任意非空子集
Xs是子集对应的集合
个人理解:根据有向图和无向图的因子分解式进行了共同抽象,从而得到的图
可以参考:https://blog.csdn.net/qq_23947237/article/details/78389188