GMM-HMM语音识别模型2

有人总结了语音识别就分为三步:第一步,把帧识别成状态(难点)。第二步,把状态组合成音素。第三步,把音素组合成单词。第一步可以当做gmm做的,后面都是hmm做的。如果你能把单词识别出来,那句子也就很简单了。当然,识别句子就会有语言模型的作用。

以下放上这段时间浏览博客的网址:

1.kaldi语音识别的资料

http://blog.csdn.net/sheshou199/article/details/53260369

给出了几个学习语音识别的网址。

2.GMM-HMM语音识别模型 原理篇

http://blog.csdn.net/abcjennifer/article/details/27346787?utm_source=tuicool

这篇博客讲解了GMM-HMM模型,识别和训练的方法、原理以及基本推导公式,看完这篇博客,会有很多地方都不懂,再去看一篇英文论文A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,入门必读。

3.GMM-HMM语音识别简单理解

http://blog.csdn.net/mingtsang/article/details/11024705

这篇博客的特点主要是给出了语音识别与训练的细节,包括步骤中的输入输出等。

这时,GMM-HMM框架原理基本了解一些,输入输出也了解一些,但还是感觉如同雾里看花,总感觉最重要的东西没有抓住,更别提做实验了,准备下一步看speech recognition process,以及kaldi手册,周末准备自己推一下所有流程,以做到心中有数,不虚。

思考:GMM高斯混合模型是对谁建立的?对每一个隐状态吗?每个隐状态又是对应什么?多个观察序列?就是多个39维MFCC特征???

你可能感兴趣的:(GMM-HMM语音识别模型2)