语音识别系统原理介绍---从gmm-hmm到dnn-hmm

   一直想写个关于语音识别系统原理的博文。前段时间我和@零落一起做了很多实验,比如htk,kaldi等。从周五开始就已经放寒假了,明天就做火车回家了。今晚加点劲写点吧,回家由于没网。大家有问题只能留言或者找我qq,我尽量过段时间来回答吧。现在我就把语音识别的原理说下去。

具体的框架图还是来一个把。这个图我也是我从网上找的。

语音识别系统原理介绍---从gmm-hmm到dnn-hmm_第1张图片

按照上图的说法,语音识别是由语言模型和声学模型构成的。下面我就根据图上的流程说下。

一 特征提取

 现在主流的特征是mfcc。具体mfcc的步骤,在我前面转的博客里也有。地址:语音信号处理之(四)梅尔频率倒谱系数(MFCC)。这里我引有知乎里的一个人的说法:

首先说一下作为输入的时域波形。我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件,比如Windows PCM文件,即wav文件来处理。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。采样率越大,每毫秒语音中包含的点的个数就越多。另外声音有单通道双通道之分,还有四通道的等等。对语音识别任务来说,单通道就足够了,多了浪费,因此一般要把声音转成单通道的来处理。下图是一个波形的示例。
语音识别系统原理介绍---从gmm-hmm到dnn-hmm_第2张图片

备注:这个波形你可以用htk里的标注和录音去看。其他的语音处理软件也可以吧。
另外,通常还需要做个VAD处理,也就是把首尾端的静音切除,降低对后续步骤造成的干扰,这需要用到信号处理的一些技术。
时域的波形必须要分帧,也就是把波形切开成一小段一小段,每小段称为一帧。分帧操作通常使用移动窗函数来实现,分帧之前还要做一些预加重等操作,这里不详述。帧与帧之间是有交叠的,就像下图这样:
语音识别系统原理介绍---从gmm-hmm到dnn-hmm_第3张图片

图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。
分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的,可以理解为这12个点包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很多细节,比如差分、均值方差规整、高斯化、降维去冗余等,声学特征也不止有MFCC这一种,具体就不详述了。

备注:mfcc的一些处理还是有很多研究的东西。等寒假回来可以跟大家交流。

这里,每个工具箱提供的特征都是不一样的。具体的可以去参考各个工具箱的说明。如:htkbook的第五章。

最后,这个mfcc的变形有很多,也就是对于mfcc的改进也很多。适合自己的才是最好的。此外,这步处理后就是一组13维*帧数的二维向量。这步在训练和测试都得做。

二 声学模型

 特征提取完毕就是声学模型的事情。通常需要大量的数据来训练我们的声学模型。这样,我们最后的识别率才是理想。这步就是用马尔科夫模型的过程。具体的细节我暂时也写不清楚。我贴一个图,希望对你理解有好处。

语音识别系统原理介绍---从gmm-hmm到dnn-hmm_第4张图片

稍微说明一下:最下面的observation就是我们提取的特征。gmm-hmm就是把我们的特征用混合高斯模型区模拟,然后把均值和方差输入到hmm的模型里。

此外,dnn-hmm的模型图:

语音识别系统原理介绍---从gmm-hmm到dnn-hmm_第5张图片

最后是dbn-hmm:

语音识别系统原理介绍---从gmm-hmm到dnn-hmm_第6张图片

 

希望我寒假过来可以很好的解释这三个图,如果有人可以解释这三个图,欢迎和我联系,与我交流。谢谢……

这些就是声学模型的全部了。如果你有时间,欢迎分享你的理解。

三 语言模型

   语言模型,我就引用@zouxy09的博客。

  语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容。换一个说法说,语言模型是用来约束单词搜索的。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。

   语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。语言模型分为三个层次:字典知识,语法知识,句法知识

    对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。语言建模方法主要有基于规则模型和基于统计模型两种方法。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram模型简单有效,被广泛使用。它包含了单词序列的统计。

     N-Gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram

  四 待续……还有很多,……寒假过来补吧……

  希望这个对大家理解整个过程有点用。具体的细节过程寒假过后补过来。如果大家有任何想法和建议,欢迎留言和与我交流。

 

最后,这是本命年最后一个博客应该。来年我希望我自己可以在语音识别做得更多,希望和大家一起学习,一起努力……加油……提前祝大家新春快乐。

 

你可能感兴趣的:(语音识别,gmm-hmm,dnn-hmm,dbn-hmm)