基于循环神经网络的藏语语音识别声学模型——阅读笔记

摘要

探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学建模输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率

研究现状:
1、杨阳蕊等借鉴汉语连续语音语料库构建方法,分别建立了基于半音节和三音素模型的藏语连续语音语料库,为藏语语音识别提供了基础数据支撑。
2、李冠宇、孟猛基于隐马尔可夫模型(HMM)构建藏语单音子和三音子模型,分别以音素和声韵母作为识别基元进行了实验,验证了基于GMM-HMM的声学模型应用于藏语大词表连续语音识别的可行性。
3、王辉、赵悦等利用深度神经网络进行特征学习,将学习到的特征输入HMM模型,在藏语音素识别和孤立词识别上取得了明显优于GMM-HMM模型的性能。
4、袁胜龙、郭武等基于迁移学习的思想,先在大规模汉语语料上训练深度神经网络模型,再将网络隐含层共享,在小规模藏语语料上进行训练调优,一定程度上解决了藏语语料资源匮乏导致的模型训练不充分问题。
5、Alex Graves等基于深度循环神经网络模型和连接时序分类算法分别在TIMIT语料库和WSJ语料库上取得了目前最优的音素和单词识别率。
6、William Song等基于深度卷积神经网络和CTC算法构建声学模型,其训练效率相较Alex的RNN-CTC模型有大幅提升,而在TIMIT上取得的音素识别率仅略低于Alex的模型。
7、在工业界,百度、科大讯飞等知名IT企业相继报道了各自基于RNN和CTC模型构建的中文语音识别系统框架,然而受制于藏语语料资源匮乏及研究基础薄弱等问题,深度RNN模型在藏语语音识别上的应用尚未得到深入探索。

1 循环神经网络模型

将双向RNN与LSTM单元相结合就构成双向LSTM网络(Bi-LSTM),再堆叠多个Bi-LSTM层即可构成深层的Bi-LSTM网络,从而充分利用上下文时序信息进行语音识别建模。

2 CTC训练与解码

CTC通过对目标序列和输入序列的对齐分布进行建模,免去了人工实现的单个声学基元与语音学目标基元的对齐操作,从而实现端到端的声学模型训练。

3 引入时域卷积的RNN声学模型

RNN模型的复杂度主要由网络隐含层神经元个数、纵向深度和横向展开步数决定,其中纵向深度就是堆叠的隐含层个数。
传统的RNN-CTC模型,各隐含层横向展开步数等于输入序列的长度,最终的CTC输出序列也与输入序列等长,最终的CTC输出序列也与输入序列等长。这种结构理论上完整保留了上下文依赖关系,却也带来了网络训练时梯度回传慢、梯度易消失等问题。同时网络输出序列长度也是影响语音解码效率的重要因素。
在藏语语音识别的声学模型来看,多个连续语音帧对应着同一个藏语音素,因此本文提出引入时域卷积的循环神经网络模型RNN-TimeConv-CTC,即在循环神经网络隐含层的输出序列之上进行时域的卷积操作,以期在不影响识别率的前提下,逐层减少网络隐含层的时域展开步数,从而简化网络结构,加速网络训练与解码。

你可能感兴趣的:(文献阅读笔记,语音识别,rnn,人工智能)