语音信号处理-2-----语音信号处理的常用算法1(HMM)

这个Blog主要介绍语音信号处理中隐马尔科夫模型。

一些小常识

HMM在语音识别中的地位一直很高,只是最近这八九年间被深度学习给取代了。对于HMM应用于语音识别这一领域,我们就需要夸一夸李开复大佬,正是他把HMM带入了语音识别。此处应有呱唧呱唧!!!

HMM--隐马尔科夫模型

HMM又叫隐马尔科夫模型,顾名思义跟跟线性代数中出名马尔科夫链肯定有着千丝万缕的联系。从课本上的定义:“HMM是一个输出符号序列的统计模型,具有N个状态,他按照一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。我们只能观察到符号序列,而不观察到状态转移序列”

我相信大多数读者读完这段定义时,感觉不知道他在说些什么。(毕竟大多数课本都是这样的晦涩)

最关键的问题是如何学HMM,最关键的两点:

  • 状态(不可见)
  • 符号(可见)

对于HMM有两个随机过程,一个随机过程描述状态和观察值之间的对应关系,也就是每个状态与对应符号的概率;另外一个描述的是状态转移。我们来举个例来形象解释一下上面这些东东

举个栗子,假设我们有若干个球和缸。球分为红白两种颜色,有3个缸,每个缸内红球和白球的个数都不一样。现在我们从这几个随机的抽取三个球,假设最终抽取的结果为“红,红,白” 。因为我们只能看到最终的抽取结果,看不到是从哪个缸内抽取的小球,(假设缸是在黑箱里面,抽球是把球从黑箱中拿出来)因此这个例子中我们可以把缸当做“状态”,把抽取不同颜色的小球当成“符号”。至此符号和状态这两个关键定义就解释完毕。

对于两个随机过程,状态和观察值之间的对应关系:我们可以认为这些缸,每个缸的内红白球的个数都不一样,可能有的白球多,有的红球多,因此在对应缸内抽中红球和白球的概率就不一样。状态和观察值之间的对应关系,换一句话来说就是每个状态对应输出的不同符号的概率关系(可能A缸输出红球的概率为0.8,B缸输出红球的概率为0.2);状态的转移:我们可以认为是这些缸之间的转移,假设有三个缸,A缸到其他缸的转移概率并不都是1/3(包括转移到他自身),有可能A到A的概率是0.2,A-B是0.3,A-B是0.5.这就是状态的转移概率。

可以把HMM理解为先进行那个缸的选择,再进行缸内球的选择。

ok,基本上当你真正理解状态与符号,和HMM两个随机过程的含义,我觉得下一个博客的HMM的模型定义也就好理解了。

你可能感兴趣的:(语音处理)