概率图模型笔记(6)——Markov Network Fundamentals

6.1 Pairwise Markov Networks

6.1.1 马尔科夫网络:一个节点之间的联系是无向边的网络,每一条边代表一个因子 Φ(Xi,Xj)
6.1.2 联合分布
  如自然连接一样把两个有共同点的边按照共同点的统一属性对应的因子做乘积。
6.1.3 因子的边缘分布
  划掉其他因子,剩下因子综合起来即剩下因子的边缘分布。因子的边缘分布可能会被其他更强力的因子淹没掉。

6.2 General Gibbs Distribution

6.2.1 吉布斯分布:将马尔科夫网联合分布归一化,称吉布斯分布(gibbs distribution)。与Pairwise马尔科夫网不同的是,吉布斯分布的辖域允许多变量。
6.2.2 马尔科夫网不能表示变量的所有组合:表示一个 n 个节点,每个节点有 d 个属性的马尔科夫网所需的变量个数为 O(n2d2) 。但如果节点任意搭配所需使用的变量个数是 O(dn)
6.2.3 导出马尔科夫网:所有因子中的两两变量均形成一条边,所得即对应的马尔科夫网。不同因子可能导出同一个网,该网性质无差。
6.2.4 影响力流动:只要两个节点的路径(迹)之间的节点均未被观察,则该迹是激活的,可以有影响力流动。

6.3 Conditional Random Fields

6.3.1 条件随机场:即观察到了一些变量的马尔科夫网,该马尔科夫网剩下的变量的条件概率公式化表示即为条件随机场的公式化表示。该模型可以忽视观察变量之间的相关性,因为它们已经被观察到了。其与吉布斯分布的区别在于归一化方式不一样(归一化因子中的观察变量是常量)。
6.3.2 条件随机场的表示
  给定观察变量X,则在X与Y共同组成的无向图中如下刻画条件分布:

P(YX)=P~(X,Y)Z(X)
P~(X,Y)=Φ(Di)
Z(X)=YP~(X,Y)

其中, Φ(Di) 为无向图的因子。
6.3.3 线性链条件随机场
  模型中有二值 i 个证据变量 Xi 以及未知二值变量 Y 。其指示函数为 Φ(Xi,Y)=exp(wi1(Xi=1,Y=1)) ,即当 Y 为1时 Φ(Xi,Y)=exp(wiXi) Y 为0时 Φ(Xi,Y)=e 。其条件分布为sigmoid函数:
PΦ(Y=1X)=expi(wiXi)1+expi(wiXi)

6.3.4 应用
  (1)图像分割:用于超级像素分类,而不管其采用了何种特征、特征之间是否有关系。
  (2)自然语言处理:给句子中的词打标签,其特征可以是:首字母是否大写,词语的位置,前后词等。

6.4 Independedncies in Markov Networks

6.4.1 图的分离
  如果节点X与Y之间没有激活的迹,则它们分离。迹的节点中如果有节点是被观察到的,则该迹不是激活的。
6.4.2 独立性:如果X与Y是分离的,则它们是独立的。
6.4.3 两个可靠性定理
  设P是一个分布,H是一个马尔科夫网结构,则:
  (1)如果P是H上因子分解的一个吉布斯分布,则H是P的一个I-MAP;
  (2)如果P是一个正分布,H是P的一个I-MAP,则P是H上分解的一个吉布斯分布。
6.4.4 如果P公式化了图H,则我们能从图中读取P的独立性分布。

6.5 I-maps and perfect maps

6.5.1 I-maps:如果P对图G进行了因式分解,则G是P的一个I-map,即G的所有独立性假设都包含在P中,反之未必然。
6.5.2 稀疏图(Sparse Graph)
  图中表达的独立性越多,则图越稀疏(边越少),并且包含了更多的信息量(编码所使用的变量更多)。
6.5.3 最小I-map:没有额外冗余边的I-map(冗余边代表着更少的独立性)。但是,最小I-map可能不能表示出所有的独立性,例如贝叶斯网络中的V结构。
6.5.4 完美图(Perfect Map)
  图G的独立性集合与因式分解的独立性集合P相等,也就是说,图G完美地捕捉了P中的独立性假设。
  完美图经常不存在,对于马尔科夫和贝叶斯网均是。
  可能存在多个完美图。
6.5.5 I-相等(I-equivalence)
  如果两个图的独立性假设集合完全相同,则称这两个图是I-相等的。例如贝叶斯网络的因果迹、证据迹与共同原因迹彼此I-相等。
  大多数图G都有很多I-相等的图。
6.5.6 其他
  (1)贝叶斯网转马尔可夫:把每个节点写成因子的形式,然后根据因子关系(因子内两两变量均有边)构建马尔可夫网。
  (2)马尔可夫网转贝叶斯网:在环状结构中添加边以构成三角形。
  贝叶斯网与马尔科夫网之间的相互转换会损失独立性假设,从贝叶斯网到马尔科夫网的转换会损失V-结构的独立性假设。

6.6 Log Linear Models

6.6.1 表达式
  参考6.3,定义概率 P~=iΦi(Di) ,将其转化为线性表达形式: P~=exp(jwjfj(Dj)) ,其中, wj 是第 j 个特征函数 fj(Dj) 的系数。
注意到,不同的特征函数的辖域是相同的。
6.6.2 表格因子的表示
  假设 X1 X2 可以取值0或1,则有下面的因子:

Φi(X1,X2)=(a00a10a01a11)

于是可以按如下方法设置特征函数:
f0012=1(X1=0,X2=0)
f0112=1(X1=0,X2=1)
f1012=1(X1=1,X2=0)
f1112=1(X1=1,X2=1)

其中大写的1表示当括号内的条件为真时取1。按照如上假设,因子的线性表示可以写为: Φi(X1,X2)=exp(klwklfklij(X1,X2)wkl=log(akl)
6.6.3 语言处理中的特征函数选取
  在线性链条件随机场模型下的语言处理模型中,可以令因子 Φi(Yi,Xi)=1(Yi=BLOC,Xi is capitalized) ,并以这样类似的形式进行特征函数的设置。
6.6.4 伊辛模型
  可以将伊辛模型看做是一个pairwise马尔科夫模型,首先计算伊辛模型的能量值:
E(x1,,xn)=(i<j)w(i,j)xixjiuixi

可以将系数 w(i,j) 看做两节点之间的影响力, xi{1+1} ,显然其特征函数就是 f(xi,xj)=xixj 。最后得出概率: P(X)eE(X)T 。值得注意的是,当 T 增大时 w(i,j) 相应减小,意味着当温度增加时磁场针之间的影响变小,反之亦然。
6.6.5 度量马尔科夫随机场
  在这个假设中,所有的变量的值域相同,而目的是使它们的取值差距最小。故选择特征向量为两个变量之间的距离函数,距离最好满足三个因素:
  (1)自反性:自己到自己的距离为0;
  (2)对称性:节点1到节点2的距离等于节点2到节点1的距离。
  (3)三角不等式:节点1到节点2的距离加节点2到节点3的距离大于节点3到节点1的距离。
  满足条件1和2的称为半度量(semimetric),都满足的称为度量(metric)。列举三种距离函数:
  (1)自己到自己的距离为0,自己到其他节点的距离为1。
  (2)距离为两个节点数值之差的绝对值。
  (3)在(2)的基础上设一上限,当超过此上限距离函数的值为常数。
  该方法可用于图像去噪(距离函数选择(2),因为像素值之间本身是有一定差距的)和声音去噪。

6.7 Shared Features in Log Linear Models

6.7.1 方法
  即先选定一个准备重用的特征函数,再为这个特征函数指定辖域,最后为每一个用于重用的特征函数分配唯一权重。
6.7.2 举例
  (1)伊辛模型:使每一对节点之间的权重相等。
  (2)自然语言处理:每一对标签和真实词语的能量值相等,每一对相邻标签的能量值相等。
  (3)图像分割:标签之间的能量相同,标签与超级像素之间的能量相同。

你可能感兴趣的:(概率图模型,马尔可夫网)