概率图模型 -- 隐马尔可夫模型、条件随机场

本文从建模角度出发,通过概率图模型分析隐马尔可夫,条件随机场,文章重点在模型建立理论基础

1. 什么是概率图模型

用图来表示变量概率依赖关系的理论,集合概率论图图论知识,利用图来表示与模型有关的变量的联合概率分布。

2. 常见概率图模型分类

图模型的分类标准有:根据边有无无方向的分类,根据表示的抽象级别的分类,一般常见概率图模型分为概率有向图,概率无向图2类;概率有向图有常见的隐马尔可夫模型(Hidden Markov model, HMM),卡尔曼滤波器(Kalman filter);常见的概率无向图有波兹曼机(Boltzman machnie),局部有向模型,即同时存在有向边与无向边,比如条件随机场(Conditional random field, CRF)。概率有向图模型适合为有单向依赖的数据建模,而概率无向图模型适合实体之间有相互依赖的数据建模

3. 有向图、无向图、部分有向图

概率图模型 -- 隐马尔可夫模型、条件随机场_第1张图片

概率图模型 -- 隐马尔可夫模型、条件随机场_第2张图片

概率图模型 -- 隐马尔可夫模型、条件随机场_第3张图片

3.1 图1有向图,就是隐马尔可夫模型,起对应两个假设:

齐次马尔科夫假设,假设隐藏的马尔可夫链在任意时刻t的状态只依赖于前一时刻的状态,与其他因素无关
观测独立性假设,假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他因素无关

依据上面两个假设,图1所示图模型的联合分布概率


3.2 假设隐藏状态y(也简称为,状态序列,词性标注任务中样本数据的标签,词性标志tag)取值有N种可能,可能的观测变量x ( 词性标注中的样本数据,也就是中文词 )有M个可能取值,通过上述表达式可以推断出,HMM模型三要素:

3.2.1. 转移矩阵


3.2.2. 观测矩阵(发射矩阵)


3.2.3. 初始状态概率向量


3.3 HMM三个问题

模型学习,学习问题分为带状态序列的有监督学习,以及不带状态序列的无监督学习
概率计算问题,给定模型,观测序列,计算该序列出现概率  
预测问题,已知模型参数,以及观测序列,求解该观测序列对应的最佳隐藏状态序列

3.3.1. 模型学习

a). 训练阶段包含隐藏状态 -- 极大似然估计,不展开

b). 训练阶段包不含隐藏状态 -- Baum-Welch算法

概率图模型 -- 隐马尔可夫模型、条件随机场_第4张图片

3.3.2. 概率计算问题

概率图模型 -- 隐马尔可夫模型、条件随机场_第5张图片

3.3.3. 预测问题 -- 维特比算法

实质是用动态规划求概率最大路径问题,假设最优路径在t时刻经过结点i,那么结点i到终点的部分路径,相较于从i到终点的所有可能部分路径来说,必须是最优的,否则矛盾。

4. 马尔科夫随机场概念

概率图模型 -- 隐马尔可夫模型、条件随机场_第6张图片

5 条件随机场

5.1 建模

条件随机场建模都提到了无向图模型,给出的理由是,无向图的联合概率分布可以通过最大团(团中任意两结点间有连线)的随机变量函数的乘积形式做因子分解,也就是严格正值势函数的连乘形式。那么模型的联合概率分布就得到了,根据条件概率公式等到条件分布概率。

已知无向图通过最大团的因子分解表达式:,那么条件分布概率:

概率图模型 -- 隐马尔可夫模型、条件随机场_第7张图片

这是CRF建模理论基础

5.2 模型学习

概率模型学习的一个准则就是最大熵模型;条件随机场给出的条件分布概率就是一个最大熵模型。通过最大熵模型学习方式改进的迭代尺度法、牛顿法、拟牛顿法、梯度下降方法都可以求得该模型(凸函数)的全局最优解。

6 有向图模型与无向图模型的对比

6.1 共同之处

将复杂的联合分布分解为多个因子的乘积

6.2 不同之处

有向图模型因子是概率分布、无需全局归一

无向图模型因子是势函数,需要全局归一

6.3 优缺点

无向图模型中势函数设计不受概率分布约束,

设计灵活,但全局归一代价高

有向图模型无需全局归一、训练相对高效


参考:

李航 统计学习方法

概率图模型体系:HMM、MEMM、CRF

概率图模型



你可能感兴趣的:(机器学习算法,算法)