条件随机场模型与感知机模型同属结构化学习大家族,但性能比感知机还要强大。
机器学习的模型谱系图如下图所示:
根据建模的究竟是联合概率分布 P(x,y) 还是条件概率分布 P(y|x),派生出生成式模型与判别式模型。
生成式模型:模拟数据的生成过程,两类随机变量存在因果先后关系,先有因素 y,后有结果 x,这种因果关系由联合分布模拟: P ( x , y ) = P ( y ) P ( x ∣ y ) P(x, y)=P(y) P(x \mid y) P(x,y)=P(y)P(x∣y)
通过联合分布 P(x,y),生成式模型其实间接建模了 P(x):
P ( x ) = ∑ y ∈ Y P ( x , y ) P(x)=\sum_{y \in Y} P(x, y) P(x)=y∈Y∑P(x,y)
这里有两个缺陷:
为克服这两个问题,判别式模型出现。
判别式模型直接跳过了 P(x),直接对条件概率 P(y|x) 建模。不管 x 内部存在多复杂的关系,也不影响判别式模型对 y 的判断,于是就能够放心大胆的利用各种各样丰富的、有关联的特征。所以会看到感知机分词的准确率高于隐马尔可夫模型。
P ( y ∣ x ) = exp ( score ( x , y ) ) ∑ x , y exp ( score ( x , y ) ) P(y \mid x)=\frac{\exp (\operatorname{score}(x, y))}{\sum_{x, y} \exp (\operatorname{score}(x, y))} P(y∣x)=∑x,yexp(score(x,y))exp(score(x,y))
其中,exp 为指数函数。随机变量关系错综复杂,为了分析这些关系,使用概率图模型。
**概率图模型( Probabilistic Graphical Model, PGM)**是用来表示与推断多维随机变量联合分布 p(x,y) 的强大框架,被广泛用于计算机视觉、知识表达、贝叶斯统计与自然语言处理。它利用节点 V 来表示随机变量,用边 E 连接有关联的随机变量,将多维随机变量分布表示为图 G=(V,E)。这样就带来了一个好处,那就是整个图可以分解为子图再进行分析.子图中的随机变量更少,建模更加简单。具体如何分解,据此派生出有向图模型和无向图模型。
有向图模型 按事件的先后因果顺序将节点连接为有向图。如果事件 A 导致事件 B,则用箭头连接两个事件 A–>B。
有向图模型都将概率有向图分解为一系列条件概率之积,有向图模型经常用生成式模型来实现。定义 π(v) 表示节点 v 的所有前驱节点,则分布为:
p ( x , y ) = ∏ v = V p ( v ∣ π ( v ) ) p(\boldsymbol{x}, \boldsymbol{y})=\prod_{v=V} p(v \mid \boldsymbol{\pi}(v)) p(x,y)=v=V∏p(v∣π(v))
相反,无向图模型则不探究每个事件的因果关系,也就是说不涉及条件概率分解。无向图模型的边没有方向,仅仅代表两个事件有关联。
无向图模型将概率分解为所有最大团上的某种函数之积。
在图论中,最大团指的是满足所有节点相互连接的最大子图。因为最大团需要考虑所有变量,为此,无向图模型定义了一些虚拟的因子节点,每个因子节点只连接部分节点,组成更小的最大团。
蓝色虚线表示最大团,黑色方块表示因子节点,圆圈则表示变量节点,无向图模型将多维随机变量的联合分布分解为一系列最大团中的因子之积:
p ( x , y ) = 1 Z ∏ a Ψ a ( x a , y a ) p(x, y)=\frac{1}{Z} \prod_{a} \Psi_{a}\left(x_{a}, y_{a}\right) p(x,y)=Z1a∏Ψa(xa,ya)
其中,a 是因子节点,Ψa 则是一个因子节点对应的函数,参数 Xa,Ya 是与因子节点相连的所有变量节点。为了将式子约束为概率分布,定义常数 Z 为如下归一化因子:
Z = ∑ x , y ∏ a Ψ a ( x a , y a ) Z=\sum_{x, y} \prod_{a} \Psi_{a}\left(x_{a}, y_{a}\right) Z=x,y∑a∏Ψa(xa,ya)
在机器学习中,常用指数家族的因子函数:
Ψ a ( x a , y a ) = exp { ∑ k w a k f a k ( x a , y a ) } \Psi_{a}\left(x_{a}, y_{a}\right)=\exp \left\{\sum_{k} w_{a k} f_{a k}\left(x_{a}, y_{a}\right)\right\} Ψa(xa,ya)=exp{k∑wakfak(xa,ya)}
其中,k 为特征的编号,Fak 是特征函数,Wak 为相应的特征权重。
判别式模型经常用无向图来表示,只需要在归一化时,对每种 x 都求一个归一化因子:
Z ( x ) = ∑ y ∏ a Ψ a ( x a , y a ) Z(\boldsymbol{x})=\sum_{y} \prod_{a} \Psi_{a}\left(\boldsymbol{x}_{a}, \boldsymbol{y}_{a}\right) Z(x)=y∑a∏Ψa(xa,ya)
然后 P(x,y) 就转化为判别式模型所需的条件概率分布,也即条件随机场的一般形式:
p ( y ∣ x ) = 1 Z ( x ) ∏ a Ψ a ( x a , y a ) p(\boldsymbol{y} \mid \boldsymbol{x})=\frac{1}{Z(\boldsymbol{x})} \prod_{a} \Psi_{a}\left(\boldsymbol{x}_{a}, \boldsymbol{y}_{a}\right) p(y∣x)=Z(x)1a∏Ψa(xa,ya)
条件随机场( Conditional Random Field, CRF)是一种给定输入随机变量 x,求解条件概率 p(y| x) 的概率无向图模型。用于序列标注时,特例化为线性链( linear chain )条件随机场。此时,输入输出随机变量为等长的两个序列。
线性链条件随机场如下图所示:
每个 Xt 上方有 3 个灰色节点,代表 Xt 的 3 个特征,当然还可以是任意数量的特征,体现了特征的丰富性,黑色方块是因子节点,可以理解为一个特征函数 f k ( y t − 1 , y t , x t ) f_{k}\left(y_{t-1}, y_{t}, x_{t}\right) fk(yt−1,yt,xt)。其中仅仅利用了 Xt 和 Yt 的特征称作状态特征,利用了 Yt-1 的特征则称作转移特征,与感知机的特征函数相同。
线性链条件随机场的定义如下:
p ( y ∣ x ) = 1 Z ( x ) ∏ t = 1 T exp { ∑ k = 1 K w k f k ( y t − 1 , y t , x t ) } p(\boldsymbol{y} \mid \boldsymbol{x})=\frac{1}{Z(\boldsymbol{x})} \prod_{t=1}^{T} \exp \left\{\sum_{k=1}^{K} \boldsymbol{w}_{k} f_{k}\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} p(y∣x)=Z(x)1t=1∏Texp{k=1∑Kwkfk(yt−1,yt,xt)}
其中,Z(x)为归一化函数:
Z ( x ) = ∑ y ∏ t = 1 T exp { ∑ k = 1 K w k f k ( y t − 1 , y t , x t ) } Z(\boldsymbol{x})=\sum_{y} \prod_{t=1}^{T} \exp \left\{\sum_{k=1}^{K} w_{k} f_{k}\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} Z(x)=y∑t=1∏Texp{k=1∑Kwkfk(yt−1,yt,xt)}
上式定义在所有可能的标注序列上。如果将所有特征函数与权重分别写作向量形式,则线性链条件随机场的定义可简化为:
p ( y ∣ x ) = 1 Z ( x ) ∏ t = 1 T exp { w ⋅ ϕ ( y t − 1 , y t , x t ) } = 1 Z ( x ) exp { ∑ t = 1 T w ⋅ ϕ ( y t − 1 , y t , x t ) } \begin{aligned} p(\boldsymbol{y} \mid \boldsymbol{x}) &=\frac{1}{Z(\boldsymbol{x})} \prod_{t=1}^{T} \exp \left\{\boldsymbol{w} \cdot \phi\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} \\ &=\frac{1}{Z(\boldsymbol{x})} \exp \left\{\sum_{t=1}^{T} \boldsymbol{w} \cdot \phi\left(y_{t-1}, y_{t}, \boldsymbol{x}_{t}\right)\right\} \end{aligned} p(y∣x)=Z(x)1t=1∏Texp{w⋅ϕ(yt−1,yt,xt)}=Z(x)1exp{t=1∑Tw⋅ϕ(yt−1,yt,xt)}
对比结构化感知机的打分函数:
score ( x , y ) = ∑ t = 1 T w ⋅ ϕ ( y t − 1 , y t , x t ) \operatorname{score}(x, y)=\sum_{t=1}^{T} w \cdot \phi\left(y_{t-1}, y_{t}, x_{t}\right) score(x,y)=t=1∑Tw⋅ϕ(yt−1,yt,xt)
可以发现结构化感知机打分函数与条件随机场的指数部分完全相同,由于给定实例 x,Z(x) 就是一个常数 c,所以有:
p ( y ∣ x ) = 1 c exp { score ( x , y ) } p(y \mid x)=\frac{1}{c} \exp \{\operatorname{score}(x, y)\} p(y∣x)=c1exp{score(x,y)}
于是,条件随机场就和结构化感知机有以下联系:
条件随机场和结构化感知机的特征函数完全一致。
结构化感知机预测打分越高,条件随机场给予该预测的概率也越大。
这种相似性使得我们能够复用结构化感知机的预测算法,也就是维特比算法。
结构化感知机和条件随机场的相同点:
不同点:
对比感知机的更新参数表达式:
w ← w + ϕ ( x ( i ) , y ( i ) ) − ϕ ( x ( i ) , y ^ ) w \leftarrow w+\phi\left(x^{(i)}, y^{(i)}\right)-\phi\left(x^{(i)}, \hat{y}\right) w←w+ϕ(x(i),y(i))−ϕ(x(i),y^)
两者的差距一目了然,感知机奖励正确答案对应的特征函数 ϕ,但仅惩罚错误最厉害的那个 y,而条件随机场同时惩罚所有答案 y,分摊惩罚总量。
条件随机场工具包,最著名的就是 CRF++,有各大平台的安装方法,HanLP已经集成了。
CRF++ 接受纯文本语料,约定为一种空格或制表符分隔的表格格式。每个序列作为一个表格,每行为序列的一个时刻 Xt,Yt,除了最后一列为输出变量 y 之外,其它列都是输入变量 x,如下所示:
详细代码请见: evaluate_crf_cws.py
https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch06/evaluate_crf_cws.py
训练耗时很长。
标准化评测:
条件随机场的各项指标全面胜过了结构化感知机,综合 F1 更达到 96.8%, 是传统方法中最准确的分词模型。
参考文献
6.条件随机场(CRF)与序列标注