NLP预训练语言模型(一):马尔科夫链与HMM的三个基本问题

隐马尔科夫模型(HMM)是一种有向图模型,是结构最简单的动态贝叶斯网,是可用于标注问题的统计学习模型,描述由隐藏的马尔科夫链随机生成观测序列的过程,属于“生成式模型”。本文介绍HMM的基本概念和三个基本问题的算法推导。

1、HMM是什么

如图所示是HMM的基本结构。它有两组变量,上面是不可观测的状态变量,表示某一时刻的系统状态;下面是可以被观测到的观测变量,表示某一时刻的观测值。一般地,系统状态变量是离散的,观测变量是离散或连续的,这里仅讨论离散的情况。


HMM的基本结构

图中的箭头表示了隐马尔科夫模型的依赖关系,也是马尔科夫链的基本特点:系统下一时刻的状态仅与前一时刻的状态有关,系统当前时刻的观测值仅与当前时刻的状态有关。这是研究HMM问题的大前提。基于这种依赖关系,可以得到所有变量的联合概率分布:

设状态集合,所有可观测变量的集合。要确定一个HMM结构,需要以下关键的三组参数,也称为HMM的三要素:

状态转移概率:在图中表示为之间的转换概率,记为矩阵,其中

输出观测概率:在图中表示为某一时刻纵向的推测概率,即根据当前状态得到各个观测值的概率,记为矩阵,其中

初始状态概率:表示初始状态即的各种取值出现的概率,记为,其中

如果已知了状态空间、观测空间、三组参数,就可以确定一个HMM模型了。首先根据初始状态概率确定,再根据向下确定当前时刻观测值,根据向右确定转移状态,一直反复进行直到最后。

在HMM中,人们关心三个问题,这三个问题分别代表三种应用的角度,对应若干解决该问题的算法:

概率计算问题:给定模型的参数和某一个观测到的序列,计算该观测序列出现的概率。涉及到前向算法后向算法

学习问题:给定观测序列,估计模型参数,使得产生该观测序列的概率最大。涉及到监督学习算法EM算法

预测问题(解码问题):给定模型参数和观测序列,求最匹配的状态序列,即最大化。涉及到近似算法维特比算法

二、概率计算问题

2.1 前向算法

定义前向概率:给定HMM模型的参数,定义从开始到时刻的观测序列为,并且此时状态为的概率为前向概率,记为:

计算方法如下:

① 计算初值:

② 递推公式:

③ 终止:

解释一下,第一步初始化前向概率,实际上根据定义求的是联合概率,第二步递推公式中,中括号内计算了前一时刻所有可能的状态转移为当前时刻状态的概率和。实际上前向概率算法是计算了状态转移过程中所有的可能路径的前向概率并求和,其计算量是。

2.2 后向算法

定义后向概率:给定HMM模型的参数,定义时刻状态为的条件下,从下一时刻开始到最后时刻的观测序列为的概率为后向概率,记为

计算方法如下:

① 初始化规定:

② 递推公式,对有:

③ 终止:

解释一下,第一步初始化所有的后向概率为1是规定,第二步与前向概率的递归思路相似,将后一时刻所有可能的状态乘以状态转换概率和输出观测概率并累加,第三步也是如此,记得用代替。

三、学习问题

学习问题是给定观测序列,求参数的估计,即参数值是多少的时候该观测序列出现的概率最大。

3.1 监督学习方法

假设给定了S个长度相同的观测序列和对应的状态序列,即,那么利用极大似然法估计参数,也就是根据频数估计参数:

是根据不同初始状态出现的频率求得的相应概率。

这种方法需要大量的训练数据,代价较高,所以更实际的方案是非监督学习方法--EM算法。

3.2 EM算法

假设给定的数据只有S个长度相同的观测序列,对应的状态序列不可见并记为,那么HMM是一个含有隐变量的概率模型:

它的参数学习由EM算法实现。EM算法的推导过程很复杂,涉及到很多数学知识,这里直接用EM算法的模板来推导。步骤如下:

① 确定完全数据的对数似然函数。完全数据就是把观测数据和状态变量拼接(concat)起来,其似然函数表示为。

② EM算法的E步。首先写出Q函数,已知Q函数的定义

写出此问题的Q函数:

其中,是当前的参数估计值,是要极大化的参数。观察到对数函数的第一项是可以拆分细化的,先把它拆开:

③ EM算法的M步。Q函数由三项组成,由于三个参数分别在三个加式中,故三个参数的估计分别求出。分别找到相应的约束条件使用拉格朗日数乘法,对拉格朗日函数求偏导,解得:

\pi_i=\frac{P(O,i_1=i|\bar{\lambda }) }{P(O|\bar{\lambda })} \\a_{ij}=\frac{\sum_{t=1}^{T-1} P(O,i_t=i,i_{t+1}=j|\bar{\lambda })}{\sum_{t=1}^{T-1} P(O,i_t=i,|\bar{\lambda })}  \\b_j(k)=\frac{\sum_{t=1}^T P(O,i_t=j|\bar{\lambda }) I (o_t=v_k)}{\sum_{t=1}^T P(O,i_t=j|\bar{\lambda })}

四、预测问题

预测问题是已知模型参数和观测序列求最佳匹配的状态序列。

4.1 近似算法

近似算法的思想是,考虑每个时刻最有可能出现的状态,这些状态合起来就是要求的状态序列。求解某一时刻的最有可能出现的状态时,用到了该时刻的前向概率和后向概率。在时刻处于状态的概率为:

在该时刻最有可能的状态是:

从而计算出所有时刻的最有可能的状态。

这种算法的优点是计算简单,缺点是没有考虑相邻状态之间的转换概率,比如当某两个相邻时刻的转换概率为0时,近似算法得到的时间序列实际上是不存在的。

4.2 维特比算法

维特比算法使用的动态规划的原理求最优路径问题,路径即状态序列。动态规划的原理是指,如果在时刻选择了状态,那么前个时刻一定仅存在一个可计算的概率最大的路径,当时,这条路径就是模型的最优路径。(leetcode的最优路径题)

先引入两个变量。定义在时刻且状态为的所有路径中的概率最大值为:

其递推公式为:

定义时刻且状态为的所有路径中概率最大的路径的前一时刻(时刻)的节点为:

的引入是为了记录最佳路径的节点,产生最佳状态序列。维特比算法步骤如下:

① 初始化:

② 递推公式,从时刻2开始:

③ 终点:

④ 最优路径回溯,从倒数第二个时刻开始向前回溯:

求得最优路径。


参考:

《机器学习》,周志华,著

《统计学习方法》,李航,著

你可能感兴趣的:(NLP预训练语言模型(一):马尔科夫链与HMM的三个基本问题)