条件随机场 CRF

    随机变量 Χ 表示需要标记的观察序列集。随机变量 Υ表示相应的表示标记序列集。所有的 Υ i ∈ Υ 被假设在一个大小为 N 的有限字符集内。随机变量 Χ 和 Υ 是联合分布,但在判别式模型中我们构造一个关于观察序列和标记序列的条件概率模型 p ( Y | X ) 和一个隐含的边缘概率模型 p ( X ) 。

    条件随机场定义:令 G = ( V , E ) 表示一个无向图, Υ = ( Υ v ) v ∈ V , Υ 中元素与无向图 G中的顶点一一对应。当在条件 Χ 下,随机变量 Υ v 的条件概率分布服从图的马尔可夫属性:p ( Υ v | Χ , Υ w , w ≠ v ) = p ( Υ v | Χ , Υ w , w ~ v ) ,其中 w ~ v 表示 ( w , v ) 是无向图 G 的边。这时我们称 ( Χ , Υ ) 是一个条件随机场。

条件随机场的学习算法

给定训练数据集估计条件随机场模型参数问题,叫做条件随机场的学习问题。条件随机场模型实际上是定义在时序数据上的对数线形模型,其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。这里不再展开,有需求的去看李航《统计学习方法》吧。

公式如下:

全连接条件随机场:能量函数

该函数由两部分组成,数据项和平滑项,数据项是基于每个像素属于各个类别的概率,平滑项是基于像素之间的灰度值差异和空间距离

条件随机场的概率函数为

P(X=x|I)=1Zexp(E(x|I))

对公式(1)中的E(x)最小化对应着对后验概率P(X=x | I)的最大化,从而得到最优分割结果。

由于直接计算概率函数P(X)比较麻烦,可以通过一个比较方便计算的概率函数Q(X)来近似得到P(X)。 Q(X)=iQi(Xi)。为了让Q(X)最大限度接近P(X),可通过对它们的KL-divergence最小化得到


该算法的每一次迭代分为5个步骤:
1, 信息传递。即使用m个滤波器分别对每一个类别l的概率图Qi(l)进行滤波的过程。
2, 滤波结果加权相加。对每一个类别l的m个滤波结果根据权重ω(m)相加。
3,类别兼容性转换。对每一个类别l的概率图根据不同类别之间的兼容性矩阵μ(l,l)进行更新。
4, 加上数据项(一元项 Unary Potential)。
5, 归一化。对各像素所属不同类别l的概率归一化,这实际上是一个Softmax的过程。



你可能感兴趣的:(条件随机场 CRF)