语音识别学习日志 2018-7-19 语音识别基础知识准备(5)[Viterbi算法]

Viterbi算法是一个通用的求序列最短距离的动态规划算法。HMM模型的解码可以用Viterbi算法完成,解码过程可以描述为给定HMM的模型和观测序列,求给定观测模型下最可能出现的状态序列。

HMM最可能隐藏状态序列求解概述

在HMM模型的解码问题中,给定模型\small \lambda = (A, B, \Pi)和观测序列\small O =\{o_1,o_2,...o_T\},求给定观测序列O条件下,最可能出现的对应的状态序列\small I^*= \{i_1^*,i_2^*,...i_T^*\},即\small P(I^{\ast }|O)要最大化。

一个可能的近似解法是求出观测序列O在每个时刻t最可能的隐藏状态\small i^\ast_t然后得到一个近似的隐藏状态序列\small I^*= \{i_1^*,i_2^*,...i_T^*\}

给定模型λ和观测序列O,在时刻tt处于状态\small q_i的概率记为:

                                                          \small \gamma_t(i) = P(i_t = q_i | O,\lambda) = \frac{P(i_t = q_i ,O|\lambda)}{P(O|\lambda)}

利用前向概率和后向概率的定义可知:

                                                          \small P(i_t = q_i ,O|\lambda) = \alpha_t(i)\beta_t(i)

于是我们得到:

                                                          \small \gamma_t(i) = \frac{ \alpha_t(i)\beta_t(i)}{\sum\limits_{j=1}^N \alpha_t(j)\beta_t(j)}

因此在给定模型λ和观测序列O时,在时刻tt处于状态\small q_i的概率是\small \gamma_t(i),这个概率可以通过HMM的前向算法与后向算法计算。

这样可得:

                                                          \small i_t^* = arg \max_{1 \leq i \leq N}[\gamma_t(i)], \; t =1,2,...T

近似算法很简单,但是却不能保证预测的状态序列是整体是最可能的状态序列,因为预测的状态序列中某些相邻的隐藏状态可能存在转移概率为0的情况。而维特比算法可以将HMM的状态序列作为一个整体来考虑,避免近似算法的问题。

维特比算法概述

Viterbi算法是一个基于动态规划的解码算法,在HMM中,维特比算法定义了两个局部状态用于递推。

第一个局部状态是在时刻tt隐藏状态为ii所有可能的状态转移路径\small i_1,i_2,...i_t中的概率最大值。记为\small \delta_t(i):

                            \small \delta_t(i) = \max_{i_1,i_2,...i_{t-1}}\;P(i_t=i, i_1,i_2,...i_{t-1},o_t,o_{t-1},...o_1|\lambda),\; i =1,2,...N

\small \delta_t(i)的定义可以得到δ的递推表达式:

                           \small \delta_{t+1}(i) = \max_{i_1,i_2,...i_{t}}\;P(i_{t+1}=i, i_1,i_2,...i_{t},o_{t+1},o_{t},...o_1|\lambda) & = \max_{1 \leq j \leq N}\;[\delta_t(j)a_{ji}]b_i(o_{t+1})

第二个局部状态由第一个局部状态递推得到。我们定义在时刻t隐藏状态为i的所有单个状态转移路径\small (i_1,i_2,...,i_{t-1},i)中概率最大的转移路径中第t−1个节点的隐藏状态为\small \Psi_t(i),其递推表达式可以表示为:

                         \small \Psi_t(i) = arg \; \max_{1 \leq j \leq N}\;[\delta_{t-1}(j)a_{ji}]

有了这两个局部状态,我们就可以从时刻0一直递推到时刻T,然后利用\small \Psi_t(i)记录的前一个最可能的状态节点回溯,直到找到最优的状态序列。

维特比算法流程

输入:HMM模型\small \lambda = (A, B, \Pi),观测序列\small O=(o_1,o_2,...o_T)

    输出:最有可能的隐藏状态序列\small I^*= \{i_1^*,i_2^*,...i_T^*\}

    1)初始化局部状态:

                                        \small \delta_1(i) = \pi_ib_i(o_1),\;i=1,2...N

                                        \small \Psi_1(i)=0,\;i=1,2...N

    2) 进行动态规划递推时刻\small t=2,3,...T时刻的局部状态:

                                         \small \delta_{t}(i) = \max_{1 \leq j \leq N}\;[\delta_{t-1}(j)a_{ji}]b_i(0_{t}),\;i=1,2...N

                                         \small \Psi_t(i) = arg \; \max_{1 \leq j \leq N}\;[\delta_{t-1}(j)a_{ji}],\;i=1,2...N

    3) 计算时刻T最大的\small \delta_{T}(i),即为最可能隐藏状态序列出现的概率。计算时刻T最大的\small \Psi_t(i),即为时刻T最可能的隐藏状态。

                                        \small P* = \max_{1 \leq j \leq N}\delta_{T}(i)

                                        \small i_T^* = arg \; \max_{1 \leq j \leq N}\;[\delta_{T}(i)]

    4) 利用局部状态\small \Psi(i)开始回溯。对于\small t=T-1,T-2,...,1

                                         \small i_t^* = \Psi_{t+1}(i_{t+1}^*)

    最终得到最有可能的隐藏状态序列\small I^*= \{i_1^*,i_2^*,...i_T^*\}

Viterbi算法解码HMM实例

下面使用该文章中的HMM模型实例来说明Viterbi算法求解的过程。

 

我们的观察集合是:                                   

                                                   V={红,白},M=2

 

我们的状态集合是:

                                                  Q={盒子1,盒子2,盒子3},N=3

而观察序列和状态序列的长度为3.

初始状态分布为:

                                                  \small \Pi = (0.2,0.4,0.4)^T

状态转移概率分布矩阵为:

                                                  \small A = \left( \begin{array} {ccc} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 &0.5 \end{array} \right)

观测状态概率矩阵为:

                                                  \small B = \left( \begin{array} {ccc} 0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3 \end{array} \right)

球的颜色的观测序列:

                                                 O={红,白,红}

按照我们上一节的维特比算法,首先需要得到三个隐藏状态在时刻1时对应的各自两个局部状态,此时观测状态为1:

                                                 \small \delta_1(1) = \pi_1b_1(o_1) = 0.2 \times 0.5 = 0.1

                                                 \small \delta_1(2) = \pi_2b_2(o_1) = 0.4 \times 0.4 = 0.16

                                                \small \delta_1(3) = \pi_3b_3(o_1) = 0.4 \times 0.7 = 0.28

                                                \small \Psi_1(1)=\Psi_1(2) =\Psi_1(3) =0

 现在开始递推三个隐藏状态在时刻2时对应的各自两个局部状态,此时观测状态为2:

                               \tiny \delta_2(1) = \max_{1\leq j \leq 3}[\delta_1(j)a_{j1}]b_1(o_2) = \max_{1\leq j \leq 3}[0.1 \times 0.5, 0.16 \times 0.3, 0.28\times 0.2] \times 0.5 = 0.028

                               \tiny \Psi_2(1)=3

                               \tiny \delta_2(2) = \max_{1\leq j \leq 3}[\delta_1(j)a_{j2}]b_2(o_2) = \max_{1\leq j \leq 3}[0.1 \times 0.2, 0.16 \times 0.5, 0.28\times 0.3] \times 0.6 = 0.0504

                               \tiny \Psi_2(2)=3

                               \tiny \delta_2(3) = \max_{1\leq j \leq 3}[\delta_1(j)a_{j3}]b_3(o_2) = \max_{1\leq j \leq 3}[0.1 \times 0.3, 0.16 \times 0.2, 0.28\times 0.5] \times 0.3 = 0.042

                               \tiny \Psi_2(3)=3

    继续递推三个隐藏状态在时刻3时对应的各自两个局部状态,此时观测状态为1:

                                \tiny \delta_3(1) = \max_{1\leq j \leq 3}[\delta_2(j)a_{j1}]b_1(o_3) = \max_{1\leq j \leq 3}[0.028 \times 0.5, 0.0504 \times 0.3, 0.042\times 0.2] \times 0.5 = 0.00756

                                \tiny \Psi_3(1)=2

                                \tiny \delta_3(2) = \max_{1\leq j \leq 3}[\delta_2(j)a_{j2}]b_2(o_3) = \max_{1\leq j \leq 3}[0.028 \times 0.2, 0.0504\times 0.5, 0.042\times 0.3] \times 0.4 = 0.01008

                                \tiny \Psi_3(2)=2

                                \tiny \delta_3(3) = \max_{1\leq j \leq 3}[\delta_2(j)a_{j3}]b_3(o_3) = \max_{1\leq j \leq 3}[0.028 \times 0.3, 0.0504 \times 0.2, 0.042\times 0.5] \times 0.7 = 0.0147

                                \tiny \Psi_3(3)=3

    此时已经到最后的时刻,我们开始准备回溯。此时最大概率为\tiny \delta_3(3),从而得到\tiny i_3^* =3

    由于\tiny \Psi_3(3)=3,所以\tiny i_2^* =3, 而又由于\tiny \Psi_2(3)=3,所以\tiny i_1^* =3。从而得到最终的最可能的隐藏状态序列为:(3,3,3).

 

 

你可能感兴趣的:(ASR)