数学之美——第五章摘要(隐马尔可夫模型)

数学之美——隐马尔可夫模型

  1. 雅格布森(Roman Jakobson)通信六个要素:发送者(信息源),信道,接受者,信息,上下文和编码
  2. 信息,上下文(发送者)——编码(s1,s2…)——传递的信息(信道)——解码(o1,o2…)——接受的信息(接受者)
  3. 其中s1,s2…表示信息源发出的信号,比如手机发送的信号。o1,o2,…是接收器(比如另一部手机)接收到的信号。通信中的解码就是根据接收到的信号o1,o2…还原出发送的信号s1,s2…
  4. 根据接收端的观测信号o1,o2,o3…来推测出发送的信息s1,s2,s3…用概率论的语言来描述,就是在已知观测信号的情况下,求P(s1,s2…|o1,o2…)达到最大值的信息串
  5. 5.1
  6. 利用贝叶斯公式可以等价转换为
    5.2
    1. 其中P(o1,o2,o3…|s1,s2,s3…)表示信息s1,s2…在传输后变成信号哦o1,o2的可能性
    2. P(s1,s2…)表示s1,s2…是一个在发送端产生合乎情理的信号或者句子的可能性,也被称为语言模型
    3. P(o1,o2…)表示o1,o2…是一个在接收端接受到合乎情理的信号或者句子的可能性
  7. 一旦信息o1,o2…产生了,就是定值,可以转换成
    5.3
  8. 隐马尔可夫模型是美国数学家鲍姆等人在20世纪六七十年代发表的,隐马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他的名字命名的
  9. 马尔可夫链:随机过程中每个状态st的概率分布,只与它的前一个状态st-1有关,也是就是P(st|s1,s2,s3…st-1)=P(st|st-1)
  10. 举例说明:我们可以把s1, s2, …看成是每天的最高气温,这里面每个状态st都是随机的。任一状态st的取值都可能和周围其他的状态相关,也就是任何一天的最高气温,与这段时间以前的最高气温是相关的。这样随机过程就有了两个维度的不确定性。马尔可夫为了简化比如,硬性假定今天的气温只跟昨天有关而与前天无关。
  11. 当然这种假设未必适合所有的应用,但是至少对以前很多不好解决的问题给出了近似解。这个假设后来被命名为马尔可夫假设,而符合这个假设的随机过程称为马尔可夫过程,也称为马尔可夫链。
  12. 数学之美——第五章摘要(隐马尔可夫模型)_第1张图片
  13. 如上图,状态m1到m2只有一条边,且边上权值为1.0。这表示从状态m1只可能转换到状态m2,转移概率为1.0。从m2出发的有两条边:到m3和到m4。其中权值0.6表示:如果某个时刻t的状态St是m2,则下一个时刻的状态St+1 = m3的概率(可能性)是60%。如果用数学符号表示是P(St+1 = m3|St = m2)= 0.6
  14. 隐含马尔可夫模型是上述马尔可夫链的一个扩展:任一时刻t的状态st是不可见的。所以观察者没法通过观察到一个状态序列s1,s2,s3…sT来推测转移概率等参数。但是,隐含马尔可夫模型在每个时刻t会输出一个符号ot,而且ot跟st相关且仅跟St相关。这个被称为独立输出假设。
  15. 隐含马尔可夫模型的结构如下:其中隐含的状态s1,s2,s…是一个典型的马尔可夫链。鲍姆把这种模型称为“隐含”马尔可夫模型。
  16. 数学之美——第五章摘要(隐马尔可夫模型)_第2张图片
  17. 把公式5.5带入5.3可以得到5.4
  18. 数学之美——第五章摘要(隐马尔可夫模型)_第3张图片
  19. P(s1,s2,s3…|o1,o2,o3…),在语音识别中被称为声学模型,在机器翻译中被称为翻译模型,在拼写矫正中是纠错模型
  20. 在利用隐含马尔可夫模型解决实际问题中,需要事先知道从前一个状态st-1进人当前状态st的概率P(st|st-1),也称为转移概率(Transition Probability),和每个状态st产生相应输出符号ot的概率P(ot|st),也称为生成概率( Generation Probability) 。这些概率被称为隐含马尔可夫模型的参数,而计算或者估计这些参数的过程称为模型的训练。
  21. 有监督的训练需要大量人工标注的数据,成本高。训练隐马尔可夫模型更实用的方式是通过大量观测到的信号o1,02…能够推算模型参数的P(st|st-1)和P(ot|st),这类方法称为无监督的训练方法,主要使用鲍姆-韦尔奇算法。
  22. 鲍姆-韦尔奇算法
    1. 首先找到一组能够产生输出序列O的模型参数(显然它们是一定存在的,因为转移概率P和输出概率Q为均匀分布时,模型可以产生任何输出,当然包括我们观察到的输出O。
    2. 现在,有了这样一个初始的模型,我们称为M0,需要在此基础上找到一个更好的模型。我们可以算出这个模型产生0的概率P(O|Mo),而且能够找到这个模型产生0的所有可能的路径以及这些路径的概率。这些可能的路径,实际上记录了每个状态经历了多少次,到达了哪些状态,输出了哪些符号,因此可以将它们看做是“标注的训练数据”
    3. 计算出新的模型参数
  23. 鲍姆-韦尔奇算法的每一次迭代都是不断地估计( Expectation)新型参数,使得输出的概率(我们的目标函数)达到最大化( Maximization ),因此这个过程被称为期望值最大化(Expectation-Maximization),简称EM过程。EM过程保证算法一定能收敛到一个局部最优点,很遗憾它一般不能保证找到全局最优点。但是如果目标函数是凸函数(比如信息熵),则只有一个最优点,在这种情况下EM过程可以找到最佳值。

今天也是爱zz的一天哦!

你可能感兴趣的:(数学之美,机器学习)