语音识别学习总结

学习总结

经过一学期的学习,对语音识别这个方向有了一个简单的认识,现在做一下总结。

语音识别过程

1. 传统语音识别

首先通过麦克风接收声音,因为声音是一种波,通过振动传播,声波会引起麦克风振元的振动,产生大小不同的振幅,也就会产生了不同的电流值,这样就将模拟信号转化为数字信号,一种时域的一维序列信号,在坐标轴中画出来就是波形图,然后计算机再对这个波形图进行处理,从中过滤掉没用的信息,提取有用的信息,并产生文字序列。人耳的听觉机理是通过声音的频域来分辨声音的,发音差不多时产生的波形图可能也会有很大的差别,所以从波形图中很难找到发音规律,需要的波形图进行进一步的处理,通过傅里叶变换把时域的波形图转换为频域的波形,然后再对频域的特征进行处理,从中学习规律。因为声音是短时平稳信号,所以在处理时,把声音分成一小段一小段来处理,即一帧,可以认为声音在这一小段中时状态是不变的。然后把这些帧识别成对应的状态,然后若干个状态组合成一个音素,再把音素组合成单词的发音,例如在汉语语音识别中,音素对应的就是一个字的声母和韵母,再用单词的发音预测对应的文本,把识别出来的文本拼接成一个句子,就完成了一句话的语音识别。
完成传统语音识别过程,需要两个独立的模型:
1.声学模型,使用HMM-GMM模型,将帧识别成对应的状态,根据状态转换机在状态之间跳转,用三个状态(或者更多)代表一个音素,帧在状态之间转移的路径得到最终的音素序列,。
2.语言学模型,使用N-gram模型,根据音素预测对应的文本。
这两个模型是独立训练的,训练的过程比较复杂,增加了语音识别的入门难度。

2. 端到端语音识别

近年来,得益于神经网络的发展和软硬件技术的提升,拥有了大量的语音语料库,产生了端到端系统。为了简化网络,在一个模型中直接将语音转换成文字,所以将这种系统称为端到端系统。端到端语音识别总的思想,是用一个统一优化的模型来实现语音识别,简化语音识别的训练过程,模型的输入是语音,输出是对应的文本,这里的文本可以是字母、子词或者单词。端到端语音识别的主要原理包括使用CTC、RNN、Attention等。

你可能感兴趣的:(语音识别,人工智能)