条件随机场理解(机器学习记录)

条件随机场 (以线性链条件随机场为例)

定义

给定 X = ( x 1 , x 2 , . . . , x n ) X=(x_1,x_2,...,x_n) X=(x1,x2,...,xn) Y = ( y 1 , y 2 , . . . , y n ) Y=(y_1,y_2,...,y_n) Y=(y1,y2,...,yn) 均为线性链表示的随机变量序列,若在给随机变量序列 X 的条件下,随机变量序列 Y 的条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 构成条件随机场,即满足马尔可夫性:

P ( y i ∣ x 1 , x 2 , . . . , x i − 1 , y 1 , y 2 , . . . , y i − 1 , y i + 1 ) = P ( y i ∣ x , y i − 1 , y i + 1 ) P(y_i|x_1,x_2,...,x_{i-1},y_1,y_2,...,y_{i-1},y_{i+1}) = P(y_i|x,y_{i-1},y_{i+1}) P(yix1,x2,...,xi1,y1,y2,...,yi1,yi+1)=P(yix,yi1,yi+1)

则称为 P(Y|X) 为线性链条件随机场。

通过去除了隐马尔科夫算法中的观测状态相互独立假设,使算法在计算当前隐状态 x i x_i xi时,会考虑整个观测序列,从而获得更高的表达能力,并进行全局归一化解决标注偏置问题。

参数化形式

p ( y ∣ x ) = 1 Z ( x ) ∏ i = 1 n exp ⁡ ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) ) p\left(y | x\right)=\frac{1}{Z\left(x\right)} \prod_{i=1}^{n} \exp \left(\sum_{i, k} \lambda_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, l} \mu_{l} s_{l}\left(y_{i}, x, i\right)\right) p(yx)=Z(x)1i=1nexpi,kλktk(yi1,yi,x,i)+i,lμlsl(yi,x,i)

其中:

Z ( x ) Z(x) Z(x) 为归一化因子,是在全局范围进行归一化,枚举了整个隐状态序列 x 1 … n x_{1…n} x1n的全部可能,从而解决了局部归一化带来的标注偏置问题。

Z ( x ) = ∑ y exp ⁡ ( ∑ i , k λ x t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) ) Z(x)=\sum_{y} \exp \left(\sum_{i, k} \lambda_{x} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, l} \mu_{l} s_{l}\left(y_{i}, x, i\right)\right) Z(x)=yexpi,kλxtk(yi1,yi,x,i)+i,lμlsl(yi,x,i)

t k t_k tk 为定义在边上的特征函数,转移特征,依赖于前一个和当前位置

s 1 s_1 s1 为定义在节点上的特征函数,状态特征,依赖于当前位置。

主要在看具体例子理解 https://www.zhihu.com/question/35866596/answer/418341940

基本问题

条件随机场包含概率计算问题、学习问题和预测问题三个问题。

概率计算问题:已知模型的所有参数,计算观测序列 出现的概率,常用方法:前向和后向算法;
学习问题:已知观测序列 ,求解使得该观测序列概率最大的模型参数,包括隐状态序列、隐状态间的转移概率分布和从隐状态到观测状态的概率分布,常用方法:Baum-Wehch 算法;
预测问题:一直模型所有参数和观测序列 ,计算最可能的隐状态序列 ,常用算法:维特比算法。

参考:如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别? - 忆臻的回答 - 知乎 https://www.zhihu.com/question/35866596/answer/418341940

你可能感兴趣的:(机器学习)