《统计学习方法》隐马尔可夫模型 学习过程 Baum-Welch算法中几个公式的证明

证明P182页 3.(1)中公式

\sum_{I}log\pi_{i_1}P(O, I|\overline{\lambda}) = \sum_{i = 1}^{N}log\pi_{i}P(O,i_1=i|\overline{\lambda})

证明:

首先明确上述公式中P(O,i_1=i|\overline{\lambda})表示的是在参数\overline{\lambda}下,生成的输出序列为O,隐状态序列的第1个位置为i,隐状态序列的第2到n个位置随便是什么都行的概率。所以P(O,i_1=i|\overline{\lambda})表示成P(O,i_1=i|\overline{\lambda}) = \sum_{I^*}P(O, i_1=i,I^*|\overline{\lambda})更清晰直观。

因此,有

\begin{align*} \sum_{I}log\pi_{i_1}P(O, I|\overline{\lambda})&= \sum_{i_1 = 1}^{N}\sum_{i_2 = 1}^{N}...\sum_{i_n = 1}^{N}P(O, I|\overline{\lambda})\\ &=\sum_{i=1}^{N}\sum_{I^*}P(O, i_1=i, I^*|\overline{\lambda})\\ &=\sum_{i = 1}^{N}P(O, i_1=i| \overline{\lambda}) \end{align*}

 

证明P182页 3. (2) 中公式

\sum_{I}(\sum_{i = 1}^{T - 1}loga_{i_t, i_{t +1}})P(O, I | \overline{\lambda})=\sum_{i = 1}^{N}\sum_{j = 1}^{N}\sum_{t = 1}^{T-1}loga_{ij}P(O, i_t=i, i_{t +1} = j| \overline{\lambda})

同3. (1)中给出的说明,P(O, i_t=i, i_{t +1} = j| \overline{\lambda})其实表达的含义应该是\sum_{I*}P(O, i_t=i, i_{t +1} = j, I^*| \overline{\lambda})I^*代表的是除了位置t和位置t+1之外的隐状态序列中其他位置的取值。

因此,有

\begin{align*} \sum_{I}(\sum_{t = 1}^{T - 1}loga_{i_t, i_{t +1}})P(O, I | \overline{\lambda}) &=\sum_{I}\sum_{i = 1}^{T - 1}loga_{i_t, i_{t +1}}P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{I}loga_{i_t, i_{t +1}}P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{i = 1}^{N}\sum_{j = 1}^{N}\sum_{I^*}loga_{ij}P(O, i_t=i, i_{t + 1}=j , I^*| \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{i = 1}^{N}\sum_{j = 1}^{N}loga_{ij}\sum_{I^*}P(O, i_t=i, i_{t + 1}=j , I^*| \overline{\lambda})\\ &=\sum_{t = 1}^{T - 1}\sum_{i = 1}^{N}\sum_{j = 1}^{N}loga_{ij}P(O, i_t = i, i_{t + 1}=j | \overline{\lambda})\\ &=\sum_{i = 1}^{N}\sum_{j = 1}^{N}\sum_{t = 1}^{T - 1}loga_{ij}P(O, i_t = i, i_{t + 1}=j | \overline{\lambda}) \end{align*}

 

证明P182页公式3. (3)公式

\sum_{I}(\sum_{t = 1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda})=\sum_{j = 1}^{N}\sum_{t = 1}^{T}logb_j(o_t)P(O, i_t=j| \overline{\lambda})

同3. (1)中给出的说明,P(O, i_t=j| \overline{\lambda})其实表达的含义应该是\sum_{I*}P(O, i_t=j, I^*|\overline{\lambda})I^*代表的是除了位置t之外的隐状态序列中其他位置的取值。

因此,有

\begin{align*} \sum_{I}(\sum_{t = 1}^{T}logb_{i_t}(o_t))P(O,I|\overline{\lambda}) &=\sum_{I}\sum_{t = 1}^{T}logb_{i_t}(o_t)P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{I}logb_{i_t}(o_t)P(O, I | \overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{j = 1}^{N}\sum_{I*}logb_i(o_t)P(O, i_t=j, I^*|\overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{j = 1}^{N}logb_i(o_t)\sum_{I*}P(O, i_t=j, I^*|\overline{\lambda})\\ &=\sum_{t = 1}^{T}\sum_{j = 1}^{N}logb_i(o_t)P(O, i_t=j|\overline{\lambda})\\ &=\sum_{j = 1}^{N}\sum_{t = 1}^{T}logb_j(o_t)P(O, i_t=j| \overline{\lambda}) \end{align*}

 

 

你可能感兴趣的:(人工智能,机器学习,隐马尔可夫模型)