条件随机场

条件随机场(CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。
主要讲述线性链条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计

  • 概率无向图模型
    • 模型
    • 概率无向图模型的因子分解
  • 条件随机场的定义与形式
    • 条件随机场的定义
    • 条件随机场的参数化形式
    • 条件随机场的简化形式
    • 条件随机场的矩阵形式
  • 条件随机场的概率计算问题
    • 前向-后向算法
    • 概率计算
    • 期望值计算
  • 条件随机场的概率的学习算法
    • 改进的迭代尺度法
    • 拟牛顿法
  • 条件随机场的预测算法

概率无向图模型


模型

概率无向图模型,又称为马尔科夫随机场,是一个可以由无向图表示的联合概率分布。

模型定义

图由结点V和连接边E组成的集合G=(V,E).无向图是指边没有方向的图.

概率图模型是由图表示的概率分布.

成对马尔可夫性:设u和v是无向图G中任意两个没有边连接的结点,分别对应随机变量 xu xv 。其他所有结点记为O,对应随机变量组 xO 。成对马尔可夫性是指给定xOxO的条件下,随机变量 xu xv 是条件独立的,即
[
P(xu,xv|xO)=P(xu|xO)P(xv|xO)
]

局部马尔可夫性:设v∈V v∈V是无向图G中任意一个结点,W是与v由边连接的所有结点,O是v,W以外的所有结点,v表示随机变量 xv ,W表示随机变量组 XW ,O表示随机变量组 XO 。局部马尔可夫性是指在给定随机变量组 xW 的条件下,随机变量 xv 与随机变量组 xO 是条件独立的,即
[
P(xv,xO|xW)=P(xv|xW)P(xO|xW)
]
P(xO|xW)>0,P(xO|xW)>0 时,等价的,
[
P(xv|xW)=P(xv|xW,xO)
]
条件随机场_第1张图片
全局马尔可夫性:设结点集合A、B是在无向图G中被结点集合C分开的任意点集合,A、B和C分别对应随机变量组 xAxBxC 。全局马尔可夫性是指给定随机变量组 xC 的条件下,随机变量组 xAxB 是条件独立的,即
[
P(xA,xB|xC)=P(xA|xC)P(xB|xC)
]
条件随机场_第2张图片
上述成对的、局部的、全局的马尔可夫性定义是等价的。

限制玻尔兹曼机(Restricted Boltzmann Machine)是一种关于可视层v和隐藏层h的,成对的马尔可夫随机场。它定义的联合分布满足
[
P(h,v|θ)=1Z(θ)Ii=1Jj=1ψij(vi,hj;θ)
]

定义(概率无向图模型)
设有联合概率分布P(Y),由无向图G=(V,E)表示,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔科夫性,就称此联合概率分布为概率无向图模型,或马尔科夫随机场

概率无向图模型的因子分解

条件随机场_第3张图片
条件随机场_第4张图片



条件随机场的定义与形式

条件随机场的定义

条件随机场_第5张图片



条件随机场的参数化形式



条件随机场_第6张图片



条件随机场的简化形式


条件随机场_第7张图片



条件随机场的矩阵形式

条件随机场_第8张图片
条件随机场_第9张图片



条件随机场的概率计算问题

像隐马尔科夫模型那样,引入前向-后项向量,递归地计算以上概率及期望值。

前向-后向算法

对每个指标i=0,…,n+1,定义前向向量 αi(x)
α0(y|x)=1,y=start;=0,
条件随机场_第10张图片

概率计算

条件随机场_第11张图片



期望值计算



条件随机场的概率的学习算法

讨论给定训练数据集估计条件随机场模型参数的问题,即条件随机场—(定义在时序数据上的对数线性模型)的学习问题。学习方法包括加大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法和拟牛顿法

改进的迭代尺度法




条件随机场_第12张图片


拟牛顿法



条件随机场的预测算法



你可能感兴趣的:(机器学习)