隐含马尔科夫模型(hidden Markov model, HMM), 可以用于标注问题的统计学习模型,
由隐藏的马尔科夫链,随机生成观测序列的过程,属于生成模型。
关于时序的概率模型
熵,最大熵,是基础。
熵:表现了系统所处状态的不确定性程度。平均信息量(平均不确定程度)。
最大熵:保留全部的不确定性,将风险降到最小。指数函数形式,形式漂亮简单,实际实现计算复杂。
马尔科夫链:状态空间中从一个状态到另一个状态的转换的随机过程。该过程具备“无记忆”的性质,下一状态的概率分布,只由当前状态决定。这种“无记忆性”叫做马尔科夫性质。
HMM中的三个元素: 初始化概率向量, 状态转移矩阵,观测矩阵。
HMM的两个基本假设: 1)当前时刻的状态只与上一时刻的状态有关, 2)当前时刻的观测只与当前时刻的状态有关。
HMM中的三个基本问题:
1. 概率计算问题: 给定模型(初始状态概率,状态转移矩阵,观测矩阵),和观测序列O,计算在该模型下,观测序列O出现的概率。
方法:前向-后向算法,通过递推高效的计算概率(直接引用前一时刻的计算结果, 避免了重复计算)。
**2. 学习问题:**给定观测序列O,求解该观测序列下,概率最大的参数,用极大似然估计。
1)观测序列+对应的状态序列(有监督学习): 直接使用最大似然估计来求解转移概率和观测概率。人工标注代价成本太高,一般会利用无监督方法。
2)只有观测序列(无监督学习):使用EM算法进行参数估计。
初始n=0,递推的求解:E步, M步,分别求解三块参数。
3. 预测问题: 给定观测序列O 和 模型,求解对 给定观测序列O下条件概率最大的状态序列。 也叫解码问题。
1)近似算法:
每个时刻选择最有可能的的状态,贪心的保证每个时刻最优,没有考虑时序关系,不能保证全局最优。
2)维特比算法:
用动态规划求解概率最大的路径,即最优路径。
CRF(Conditional Random Field),条件随机场,仅讨论在标注问题中的应用,这里主要是线性链(linear chain)条件随机场。
定义:给定随机变量X条件下,随机变量Y的马尔科夫随机场。
概率无向图模型:联合概率P(Y)满足马尔科夫性,整个联合概率就被称为概率无向图模型,或马尔科夫随机场。 最大的特点就是方便因子分解,
将概率无向图模型的联合概率分布表示为,最大团上的随机变量函数乘积形式,就是概率无向图模型的因子分解。
P(Y) = (1/Z) * (连乘)
Z是规范化因子,保证P(Y)构成一个概率分布,Z = (连乘并求和)
线性链条件随机场:X,Y均为线性链表示的随机变量序列,在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布**P(Y|X)**构成条件随机场,即满足马尔科夫性,
P(Yi | X,Y1, …, Yi-1, Yi+1, …, Yn) = P(Yi | X, Yi-1, Yi+1)
则称P(Y | X)为线性链条件随机场。标注问题中,X表示观测序列,Y表示对应的输出标记序列或状态序列。
**1. CRF的参数化形式:**P(Y|X)的因子分解,各因子是定义在相邻两个节点上的函数。
随机变量X取值为x,随机变量Y取值为y的条件概率具有如下形式:
1)tk是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,sl是定义在节点上的特征函数,称为状态特征,依赖于当前位置,这两个都依赖于位置,称为局部特征函数。这两个特征函数通常取值为1或0,满足特征条件时取1,不满足取0.
2)旁边的两个是两个特征函数对应的权值。
条件随机场,完全由这四个参数来确定。
Z(x)是规范化因子,求和是在所有可能的输出序列上进行的。以上线性链条件随机场就是一个对数线性模型。
2. CRF的简化形式:
CRF的同一特征在各个位置都有定义,对同一特征在各个位置求和,将局部特征转化为一个全局特征函数。
将CRF写成权值向量和特征向量的内积形式,就是简化形式。
3. CRF的矩阵形式:
CRF的三大基本问题:
2. 学习算法:
CRF模型实际上是定义在时序数据上的对数线性模型。学习方法包括极大似然估计、正则化的极大似然估计。
优化方法有:改进的迭代尺度法、梯度下降法、拟牛顿法。
1)改进的迭代尺度法(用的简化形式):求解转移特征tk、 状态特征sl, 参数迭代更新w,w通过转移方程和状态方程得出,
2)拟牛顿法: 最小化目标函数,计算梯度,
CRF没有独立性假设,所以容纳更多的上下文信息,
CRF是给定观察序列,计算整个标记序列的联合概率。
CRF计算量大,参数众多,训练慢。
EM: 用于含有隐变量(hidden variable)的概率模型参数的 极大似然估计、或极大后验概率估计
EM 是一种迭代算法 每次迭代分两步: E步,求期望; M步, 求极大值。
概率模型, 有时含有 观测变量(observable variable), 也可能含有隐变量(hidden variable), 或者潜在变量(latent variable)。
都是观测变量的话,给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数,
含有隐变量的话, 就要用EM.
高斯混合模型(Gaussian Mixed Model),指的是多个高斯分布函数的线性组合,理论上GMM可以拟合任意类型的分布。通常用于解决,同一集合下的数据包含多个不同分布的情况(或同一分布,但参数不一样,或不同类型分布)
给定一组输入随机变量条件下,另一组输出随机变量条件下,的条件概率模型。假设输出随机变量构成马尔可夫随机场。