概率图模型(1):CRF(conditional random field)线性条件随机场

文章目录

  • 概率图模型的综合叙述:
  • CRF 综述

概率图模型的综合叙述:

概率图模型(1):CRF(conditional random field)线性条件随机场_第1张图片

特征函数便是图中的conditional。对图简单的说明,综合概述Naive Bayes,Logistic Regression,HMM,Linear-chain CRF之间的关系。Naive Bayes经过条件参数的加入即为Logistic Regression,同时这两者经过序列化即特征函数加入了对相邻状态之间的判断即变为HMM和Linear-chain CRF,最后经过广义图模型的扩展变为最后两者。

CRF 综述

CRF(conditional random field)简单而又直白的讲,线性条件随机场,是只考虑概率图中相邻变量是否满足特征函数 F ( y , x ) F(y,x) F(y,x)的一个模型。

下面看一个词性标注任务的例子:

概率图模型(1):CRF(conditional random field)线性条件随机场_第2张图片

定义转移特征函数: t ( y 2 = v . , y 3 = v . , x , i ) = − 1 t(y_2=v.,y_3=v.,x,i)=-1 t(y2=v.,y3=v.,x,i)=1(两个动词相连我们可以给负分)(y2y3都是动词的时候扣分)

定义状态特征函数: s ( y 3 = a r t ⋅ , x , i ) = 1 s\left(y_{3}=a r t_{\cdot}, x, i\right)=1 s(y3=art,x,i)=1(把 a 标注成不定冠词可以给正分)(y3是不定冠词的时候加分)

条件随机场的参数化定义为:
P ( y ∣ x ) = 1 Z ( x ) exp ⁡ ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) ) Z ( x ) = ∑ y exp ⁡ ( ∑ i , k λ k t k ( y i − 1 , y i , x , i ) + ∑ i , l μ l s l ( y i , x , i ) ) \begin{array}{l}{P(y | x)=\frac{1}{Z(x)} \exp \left(\sum_{i, k} \lambda_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, l} \mu_{l} s_{l}\left(y_{i}, x, i\right)\right)} \\ {Z(x)=\sum_{y} \exp \left(\sum_{i, k} \lambda_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right)+\sum_{i, l} \mu_{l} s_{l}\left(y_{i}, x, i\right)\right)}\end{array} P(yx)=Z(x)1exp(i,kλktk(yi1,yi,x,i)+i,lμlsl(yi,x,i))Z(x)=yexp(i,kλktk(yi1,yi,x,i)+i,lμlsl(yi,x,i))
每一项的含义:

∑ i , k λ k t k ( y i − 1 , y i , x , i ) \sum_{i, k} \lambda_{k} t_{k}\left(y_{i-1}, y_{i}, x, i\right) i,kλktk(yi1,yi,x,i)共计 k k k个转移特征函数条件下每一个函数针对不同的输入位置 i i i给出的评分总和。

∑ i , l μ l s l ( y i , x , i ) ) \sum_{i, l} \mu_{l} s_{l}\left(y_{i}, x, i\right)) i,lμlsl(yi,x,i))共计 l l l个状态特征函数条件下每一个函数针对不同的输入位置 i i i给出的评分总和。

简化表达

当我们给每个特征函数(转移特征和状态特征)不同的权重 w w w(转移特征的权重 λ k \lambda_{k} λk与状态特征的权重 μ l \mu_{l} μl统一用 w w w表示),把转移特征 t ( y i − 1 , y i , x , i ) t\left(y_{i-1}, y_{i}, x, i\right) t(yi1,yi,x,i)和状态特征 s ( y i , x , i ) s\left(y_{i}, x, i\right) s(yi,x,i)同一写成 F ( y , x ) F(y,x) F(y,x)后:

P w ( y ∣ x ) = 1 Z W ( x ) exp ⁡ ( w ⋅ F ( y , x ) ) P_{w}(y | x)=\frac{1}{Z_{W}(x)} \exp (w \cdot F(y, x)) Pw(yx)=ZW(x)1exp(wF(y,x))
Z w ( x ) = ∑ y exp ⁡ ( w ⋅ F ( y , x ) ) Z_{w}(x)=\sum_{y} \exp (w \cdot F(y, x)) Zw(x)=yexp(wF(y,x))

理解:

满足特征条件越多越容易出现更高的概率,条件随机场模型在统计语料库中相邻词是否满足特征函数的频数,并依此给出 P w ( y ∣ x ) P_{w}(y | x) Pw(yx)。在给定的 ( x , y ) (x,y) (x,y),满足的特征函数越多,模型 P w ( y ∣ x ) P_{w}(y | x) Pw(yx)认为越大。

你可能感兴趣的:(计算机视觉基础知识)