参考:《统计学习方法》——李航;
介绍条件随机场的基本概念、概率计算、学习方法、预测方法等内容。
1.1 什么是条件随机场
条件随机场的定义为:X和Y都是随机变量,是给定X条件下Y的条件概率分布。若Y可以构成一个由无向图表示的马尔可夫随机场,即
对任意成立,则称为条件随机场。
其中指在无向图中除之外的所有点,指与相连的所有点。
1.2 什么是概率无向图模型
联合概率分布由无向图来表示,图中的结点表示随机变量,边表示依赖关系。如果满足成对、局部、全局马尔可夫性,则该联合概率分布为无向图模型。
无向图中的最大团是指图的某个子集中任何两个结点均有边连接,并且这个子集不能再加任何一个结点使之成为更大的团。图中是一个最大团,不是最大团。
无向图的特点在于可以被因子分解,即用最大团的随机变量的函数的乘积来表示概率无向图的联合概率分布。
C是无向图中的最大团,是C的结点对应的随机变量,是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的。
1.3 什么是成对、局部、全局马尔可夫性
成对马尔可夫性:
和是无向图中任意两个没有边连接的结点,两个结点分别对应随机变量,,其他结点为,对应的随机变量组为。则成对马尔可夫性指,给定随机变量组的条件下,,是条件独立的。
局部马尔可夫性:
是无向图中任意一结点,是与有边连接的所有结点,是之外的所有结点,各自表示的随机变量(组)为。则局部马尔可夫性指,给定随机变量组的条件下,与是独立的,即
全局马尔可夫性:
结点集合被无向图中点集分隔开,其对应的随机变量组分别为,则全局马尔可夫性是指给定随机变量组条件下的随机变量组和是条件独立的,即
1.4 线性条件随机场
和是线性链表示的随机变量序列,在给定X的条件下,Y的条件概率分布构成条件随机场,即满足马尔可夫性
(在和时只考虑单边)
则称为线性条件随机场。在标注问题中,X表示输入观测序列,Y表示对应的输出标记序列或状态序列。
1.4.1 条件随机场的参数化形式为
式中是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,
是定义在结点上的特征函数,称为状态特征,依赖于当前位置。
通常两个函数的取值为1或0;满足特征时取1,否则取0。
1.4.2 条件随机场的简化形式
故。
1.4.3 条件随机场的矩阵形式
引入起点和终点状态标记,。对观测序列x的每一个位置,定义一个m阶矩阵(m表示标记取值的个数)
这样,给定观测序列x,标记序列y的非规范化概率可以通过n+1个矩阵的乘积表示,于是可得,
这里,笔者对m阶矩阵的理解如下,
假设,状态序列y,观测序列x,,,标记,,各个位置随机矩阵为
中表示在位置一时,从0到1的概率,从1到0的概率为0;
中表示在位置二时,从1到1的概率,表示从2到1的概率;
中由于在最后stop=1,故从1到1概率为1,从2到1概率为1,从1到2概率为0,从2到2概率也为0 ;
注:是非规范化概率。
2.1前向后向算法
对每个指标,定义前向向量
即
表示在位置i的标记是并且到位置i的前部分标记序列的非规范化概率。
对每个指标,定义后向向量
即
表示在位置i的标记为并且从位置i+1到n的后部分标记序列的非规范化概率。
由前向-后向向量定义可得
2.2概率计算
给定观测序列X,标记序列在i位置的标记是的概率为
给定观测序列X,标记序列在i-1位置是,且在i位置的标记为的概率为
2.3期望值的计算
特征函数关于条件分布的数学期望是
假设经验分布为,特征函数关于联合分布的数学期望是
其中
3.1改进的迭代尺度法
条件随机场要学习的是特征函数的权重。给定训练数据集,可以得到经验分布。通过极大化训练数据的对数似然函数来求解模型参数。
似然函数是
改进的迭代尺度法通过迭代的方法不断优化对数似然函数改变量的下界,以达到极大化对数似然函数的目的。
算法输入:特征函数,;经验分布。
算法输出:参数估计值;模型。
(1)对所有的k,取初值为;
(2)当时,令是方程
的解;
更新参数值。
当时,令是方程
的解;
更新参数值。
是在数据(x,y)中出现所有特征数的总和
(3)如果不是所有的都收敛,则重复(2)。
由于是在数据(x,y)中出现所有特征数的总和,对不同的数据(x,y)取值可能不同。为处理这个问题,定义松弛特征
S是一个常数,选择中够大的常数S舍不得训练数据集的所有 数据(x,y),成立,这时特征总数可取S。
更新方程也需要改一下:
对于转移特征
对于状态特征
上述方法称为算法S。常数S要取足够大,每步迭代的增量向量会变大,算法收敛会变慢。
算法T试图解决这个问题,其对每个观测序列x计算其特征总数最大值,即。
利用前向后向递推公式计算。
是特征的期望值,。是上式唯一实根,可用牛顿法求得,从而求得相关的。
是特征的期望值,,是上式唯一实根,用牛顿法求得。
条件随机场的学习算法也可以用拟牛顿法,具体如何用,本文不再详述,以后接触到拟牛顿法时,再详细讲解。
同HMM一样,CRF也可以用维特比算法来进行预测。
CRF的预测问题是给定模型P(y|x)和输入序列x,求条件概率最大的输出序列,即对观测序列进行标注。
CRF的预测问题就是求非规范化概率最大的最优路径问题
可以写成
其中
维特比方法过程如下
首先求出位置1的各个标记的非规范化概率
再求出到位置i的各个标记的非规范化概率的最大值,同时记录最大值的路径
直到i=n时终止,这时求得非规范化概率的最大值及最优路径的终点,再由此终点返回。
至此可求得最优路径。