语音识别传统方法(GMM+HMM+NGRAM)概述

春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别)。部门起了个新项目,要用到语音识别(准备基于Kaldi来做)。我们之前做的传统音频已基本成熟,就开始关注在语音识别上了。对于我们来说,这是个全新的领域(虽然都是语音相关的,但是语音通信偏信号处理,传统语音识别方法偏概率统计),需要学习的知识很多,所以这段时间主要是在学习新知识了,主要学习了数学(高数/线性代数/概率统计,这应该算复习)、机器学习基础知识、深度学习、语音识别传统方法等。由于刚开始学,还没实践,有的还是一知半解。学的过程中也要有输出(把自己学的知识讲给组内其他同学听,并一起讨论,让大家都快速入门),这也能促进把学的东西掌握的更好。我花了两周的时间学习了语音识别的传统方法(主要学习方式是看文档和博客),基本上掌握了其方法,也做了PPT给组内同学讲(做PPT时用了一些博客上的图,谢谢这些博主,这里就不一一列举了)。今天就把这个PPT share出来,给也想入门语音识别的朋友做个参考。由于还没实践,有什么不太准确或不准确的地方还请指出。

 

语音识别传统方法主要分两个阶段:训练和识别,训练阶段主要是生成声学模型和语言模型给识别阶段用。传统方法主要有五大模块组成,分别是特征提取(得到每帧的特征向量),声学模型(用GMM从帧的特征向量得到状态,再用HMM从状态得到音素)、发音字典(从音素得到单词)、语言模型(从单词得到句子)、搜索解码(根据声学模型、发音字典和语言模型得到最佳文本输出),即从帧得到特征向量(特征提取干的话),从特征向量得到状态(GMM干的话),从状态得到音素(HMM干的话),从音素得到单词(发音字典干的活),从单词得到句子(语言模型干的活)。传统方法除了在特征提取上用到信号处理知识,其余全都是概率统计等知识,所以说语音识别和语音通信是两个完全不同的领域。

 

经过近十年的发展,语音识别已经从传统方法演进到基于深度学习的方法,识别率也有了质的提升,而且还在快速的演变中,现在商用的语音识别系统都是基于深度学习实现的。对于传统方法而言,只会出现在文章教材中了,但作为新手,在入门时学习它还是很有必要的。只有了解了传统方法再去学习深度学习方法,才知道深度学习方法是怎么样基于传统方法一步步演变的。下面就是我的PPT。

 

语音识别传统方法(GMM+HMM+NGRAM)概述_第1张图片

 

语音识别传统方法(GMM+HMM+NGRAM)概述_第2张图片

 

语音识别传统方法(GMM+HMM+NGRAM)概述_第3张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第4张图片

 

语音识别传统方法(GMM+HMM+NGRAM)概述_第5张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第6张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第7张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第8张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第9张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第10张图片

 语音识别传统方法(GMM+HMM+NGRAM)概述_第11张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第12张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第13张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第14张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第15张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第16张图片

语音识别传统方法(GMM+HMM+NGRAM)概述_第17张图片

你可能感兴趣的:(智能语音)