语音识别系统原理介绍-----dnn-hmm

   最近看到一个ASR的课程,很不错吧。网址:http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……

   接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn,基于这个我们可以认为,深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧:

语音识别系统原理介绍-----dnn-hmm_第1张图片

看到这个图大家应该都可以很清楚地去理解了。下面分开介绍:

1.特征部分:一般在深度学习系统里用Filter bank 作为特征,这个就是在做MFCC时去掉最后二步。在论文里说,这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右 图)。见文章:RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。

2014.8.26更新:为什么采用Filter bank 作为特征?因为dnn模型里不需要来去相关性的操作。所以我们可以跳过dct变换。这个感觉还是跟数学有关。觉得dnn应该可以做这种去相关性的操作。


2014.8.13更新:看到一个图,贴在这里,方便大家理解。

语音识别系统原理介绍-----dnn-hmm_第2张图片

                      此外,有些人在研究其他的特征,最多的就是bottleneck feature.这个现在很多人在研究,寻找一个很多的特征,肯定会使我们最后的识别率得到提高吧。至于这个 bottleneck feature,稍后贴出几篇文章。

语音识别系统原理介绍-----dnn-hmm_第3张图片                              语音识别系统原理介绍-----dnn-hmm_第4张图片

2.dnn部分:至于深度学习,相信了解的人都知道:从最初的bp算法,到现在的rbm,dbn,cnn,rnn等等模型。当然,注意的是,语音不在像图像,在做第一个rbm时应该用                        grbm。我们应该用连续的就是高斯了来做这个假设。下面还是继续贴图:

语音识别系统原理介绍-----dnn-hmm_第5张图片

语音识别系统原理介绍-----dnn-hmm_第6张图片

这里的大概是以dbn为框架的,其他的就可以以此类推。具体的实现可以参考kaldi里的nnet2这部分,在rm和wsj数据上的。

3.hmm部分:这部分跟gmm-hmm一样。还是弄一个图:

语音识别系统原理介绍-----dnn-hmm_第7张图片       语音识别系统原理介绍-----dnn-hmm_第8张图片


最后,上面的右图就是bottleneck feature的示意图。

就这样,似乎不是很好的去理解吧。大家多实践,多看代码。希望对你有用……

最近一样在看用深度学习模型去学习特征,然后用于分类或者识别吧。只是为了用到语音里,也希望用到毕设里,这里附上一个链接:http://www.liacs.nl/~dmus/api2011.html。主要内容是: to use Deep Belief Networks to learn a feature hierarchy from unlabeled speech data.

欢迎探讨,kaldi学习 语音深度学习群:367623211。欢迎您的加入,欢迎探讨和学习……


你可能感兴趣的:(语音)