语音识别技术学习系列(一)——入门

    

    从这一篇开始,陆续学习语音识别技术,由浅入深。


    这一篇是入门,主要学习的是语音识别技术的大致步骤,以及现在的几种主流方法。


    下图是语音识别技术的系统框图:

语音识别技术学习系列(一)——入门_第1张图片

    主要包括这样几个步骤:

1)预处理。对输入语音信号进行预加重和分帧加窗等处理,过滤其中不重要信息及背景噪声,进行端点检测,以确定有效的语音段;

2)特征提取。常见的特征参数有基于时域的幅度、过零率、能量,以及基于频域的线性预测倒谱系数(LPCC)、Mel倒谱系数(MFCC)等;

3)模式匹配。


    目前已有几种主流的语音识别技术:

1)动态时间规整(DTW)技术。采用动态规整法,并结合时间变换关系,得到特征矢量之间的距离,是语音识别中的一种经典算法。DTW技术比较容易实现,但是不能充分利用语音信号的时序特性和动态特征,因此适合用于孤立词、小词汇等相对简单的汉语语音识别系统。


2)隐马尔可夫模型(HMM)技术。HMM用马尔科夫链中的状态表示语音的发音过程,在单字生成过程中,系统由一个状态转移到另一个状态,在每个状态下产生一个输出,直至该单字输出完毕。HMM用马尔科夫链来模拟信号的变化过程,在通过序列间接地描述这种变化,因此它是一个双重随机过程,因而能很好地描述语音信号的总体非平稳性和短时平稳性。

HMM需要对当前的状态序列分布作先验假设;对高层次声学音素建模能力弱,使声学上相似词容易混淆;HMM语音识别系统用硬件实现起来比较困难。


3)人工神经网络(ANN)技术。训练时间长。


    现有语音识别的难点:

1)识别性能依赖周围环境。当训练环境和测试环境不一样时,效果变差;

2)噪声问题。如何去噪;

3)语音信息的模糊性。读音相似的词语,同音不同意思的词语,如何识别。



参考:

《基于隐马尔可夫模型的额语音识别技术研究》



 

你可能感兴趣的:(Speech,Recognition,语音识别,HMM,神经网络,DTW)