条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章主要讲述线性链(linear chain)条件随机场在标注问题的应用,这时问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。
概率无向图模型(probabilistic undireoted graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。
图(graph):由结点(node)及连接结点的边(edge)组成的集合。结点和边分别记作 v 和 e,结点和边的集合分别记作 V 和 E,图记作G=(V,E)。无向图是指边没有方向的图。
概率图模型(probabilistic graphical model):由图表示的概率分布。设有联合概率分布P(Y),Y是一组随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图G中,每个结点 v 表示一个随机变量;每条边e表示随机变量之间的概率依赖关系。
给定一个联合概率分布P(Y)和表示它的无向图G,有如下几个概念:
(1) 成对马尔可夫性(pairwise Markov property)
设和是无向图G中任意两个没有边连接的结点,结点和分别对应随机变量和,其他所有结点为O,对应的随机变量组是。成对马尔可夫性是指给定随机变量组的条件下随机变量和是条件独立的,即:
(2). 局部马尔可夫性(local)
设是无向图G中任意一个结点,是与有边连接的所有结点,是, 以外的其他所有结点。分别表示随机变量,以及随机变量组和。局部马尔可夫性是指在给定随机变量组的条件下随机变量与随机变量组是独立的,即:
在时,等价地,
(3).全局马尔可夫性(global)
设结点集合A, B是在无向图G中被结点集合C分开的任意结点集合,如图11.2所示。结点集合A, B和C所对应的随机变量组分别是,和。全局马尔可夫性是指给定随机变量组条件下随机变量组,是条件独立的,即:
全局马尔可夫性是对局部的扩展,相当于把中心点扩展成了点集合
这几个定义是等价的。
团与最大团:无向图G中任何两个结点均有边连接的结点子集称为团(clique)。若C是无向图G的一个团,井且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团(maximal clique)。
图中是一个最大团,不是最大团。
无向图的因子分解:将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。
概率无向图模型的联合概率分布可以表示为如下形式:
C是无向图中的最大团,是C的结点对应的随机变量,是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的。
条件随机场是给定随机变量X条件下,随机变量Y的马尔可夫随机场。在条件概率模型P(Y|X)中,Y是输出变量,表示标记序列,也把标记序列称为状态序列,X是输入变量,表示需要标注的观测序列。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型;预测时,对于给定的输入序列x,求出条件概率最大的输出序列。
条件随机场:设X与Y是随机变量,P(Y | X)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)表示的马尔可夫随机场,即:
对任意结点v成立,则称条件概率分布P(Y|X)为条件随机场。式中w~v表示在图G=(V,E)中与结点v有边连接的所有结点w,表示结点v以外的所有结点,,与为结点v,u与w对应的随机变量。
现实中,一般假设X和Y有相同的图结构。线性链条件随机场的情况为:
线性链条件随机场:设,为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y I X)构成条件随机场。即满足马尔可夫性
(在i=1和n时只考虑单边)
则称P(Y I X)为线性链条件随机场。
线性链条随机场的参数化形式:设P(Y|X)为线性链条随机场,则在随机变量X取值为x的条件下,随机变量Y取值为y的条件概率具有如下形式:
其中:
式中,和是特征函数,和是对应的权值,Z(x)是规范化因子,求和是在所有可能的输出序列上进行的。
是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,是定义在结点上的特征函数,称为状态特征,依赖于当前位置,和都依赖于位置,是局部特征函数,通常,特征函数和取值为1或0,当满足特征条件时取1,否则为0,条件随机场完全由特征函数,和对应的权值,确定。
上题的思路是:把标记y=(1,2,2)分别带入上式的t1-t5以及s1-s4的条件中判断,若满足,则该式取1,再乘以权值,则最后得到的是权值的大小,例如,y1=1,y2=2,满足条件t1,因此t1那部分式子结果为1,同理,t4 =0.2,s1=1,s2=0.5,s4=0.5,其他均为0,因此最后结果为3.2。
条件随机场的概率计算问题是给定条件随机场P(YIX),输入序列X和输出序列Y,计算条件概率,以及相应的数学期望的问题。可以像隐马尔可夫模型那样引进前向-后向算法。
条件概率
由于序列的递推关系,从前往后推,到位置i,i位置为关于位置i-1为的条件概率为
从图11.5可以看出,
Y的各节点之间是无向的,也就是不仅依赖,同时也依赖,要确定,那么和也需要确定。
因此,引入前向后-后向算法,前向算法计算对的依赖,后向算法计算对的依赖。
以标注序列为例,p(y|x)是整个序列的概率,而实际标注过程中,每个位置上Y的可能取值的概率才是决定每个位置该标注为哪一个值的关键。我们的计算目标更多在于,而根据前面的依赖关系,要计算位置i为的概率,需要先计算位置i-1和i+1各可能标注值的概率,所以,还需要计算和。
在前向算法中,定义
递推公式 :
又可表示为 :
表示在位置i的标记为并且i前面的位置确定的非规范概率, 表示位置i上Y的所有可能取值的概率,可看做是一个矩阵,如果Y的取值个数为m,那么它是m维向量。
同样,在后向算法中,定义
递推公式 :
又可表示为 :
表示在位置i的标记为并且从i+1到n的后部分标记序列的非规范化概率。
根据递推关系,start和stop之间所有路径的概率和,实际上就是从start往stop推,第n位置的所有取值的概率和,因为序列最后一个包含全部可能取值,那么前面位置的所有可能全部包含在内,同理,也等同于从stop往后推,推到start,位置1的所有可能取值的概率和等同于start和stop之间的所有路径概率和。因此
其中1是元素均为1的m维向量。
计算位置i-1和i的条件概率
在学习参数时,需要用到转移特征的期望和状态特征的期望,前面已经把转移和状态两特征函数统一成特征函数,所以,除了计算概率,还得计算特征函数的期望。
特征函数关于条件分布P(Y|X)的数学期望是
假设经验分布为,特征函数关于联合分布P(Y,X)的数学期望是
条件随机场的预测问题是给定义条件随机场P(Y|X)和输入序列(观测序列)x,求条件概率最大的输出序列(标记序列)y*,即对观测序列进行标注。条件随机场的预测算法是维特比算法。