编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术(完整视频传送门),以下是本次分享的主要内容:
1.语音识别技术简介
1.1 什么是语音识别
语音识别(Automatic Speech Recognition,ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是完全机器翻译,自然语言理解等的前提条件。语音识别的研究起源于上世纪的50年代,此后经过无数学者坚持不懈的努力,从最初的基于孤立词的小词汇量语音识别系统到目前的基于大词汇量的连续语音识别识别系统,
语音识别技术取得了显著的进展。特别是近年来随着大数据时代的到来,以及深度神经网络在语音识别中的应用,语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。
1.2 语音识别系统框架
图2. 语音识别系统结构框图
语音识别的目的是对给定的波形序列,可以得到相应的单词或者字符序列。因此语音识别可以被看作是一个信道解码或者模式分类问题。统计建模是目前主流的语音识别方法。基于统计建模框架,对于给定语音波形序列O,我们可以采用贝叶斯决策的最大后验概率(
Maximum A Posteriori,MAP
)估计得到最优的输出序列W*,公式表达如图1所示。其中条件概率P(O|W) 表示模型生成观察序列的概率,对应语音识别系统的声学模型(Acoustic Model,AM)。似然值P(W)则表示序列W出现的一个先验概率,称之为语言模型(Language Model,LM)。如图2是一个标注的语音识别系统的结构框图,其主要由前端处理,声学模型,语言模型,解码器四个模块组成。解码的过程主要是利用所训练的声学模型和语言模型,搜索得到最佳的输出序列。
1.3 声学模型
声学模型的任务是计算P(O|W),即给模型产生语音波形的概率。声学模型是语音识别系统的重要组成部分,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。传统的语音识别系统普遍采用的是基于GMM-HMM的声学模型,其中GMM用于对语音声学特征的分布进行建模,HMM则用于对语音信号的时序性进行建模。2006年深度学习兴起以后,深度神经网络(Deep Neural Networks,DNN)被应用于语音声学模型。2009年,Hinton及其学生奖前馈全连接深度神经网络应用于语音识别声学建模[1],在TIMIT数据库上基于DNN-HMM的声学模型相比于传统的GMM-HMM声学模型可以获得显著的性能提升。DNN相比于GMM的优势在于:1)DNN对语音声学特征的后验概率进行建模不需要对特征的分布进行去分布假设;2)GMM要求对输入的特征进行去相关处理,而DNN可以采用各种形式的输入特征;3)GMM只能采用单帧语音作为输入,而DNN则可以通过拼接相邻帧的方式利用上下文的有效信息。2011年,DengLi等提出基于CD-DNN-HMM[2]的声学模型,在大词汇量连续语音识别任务上取得成功,相比于传统的GMM-HMM系统可以获得超过20%的相对性能提升。
基于DNN-HMM的语音声学模型开始取代GMM-HMM成为主流的声学模型。
此后大量的研究人员投入到基于深度神经网络的语音声学建模研究中,语音识别取得了突破性的进展。
2.INTERSPEECH 2017 论文介绍
基于深度神经网络的语音识别声学建模在过去几年取得了很大的进展,不同的网络结构以及优化策略极大提升了声学模型的性能。以下则选择本次interspeech相关的两个声学模型的最新研究点进行介绍:1)Very deep Networks;2)End-to-end ASR systems。
2.1 Very Deep Networks for Acoustic Modeling
长短时记忆单元(Long Short Memory Networks,LSTM)是目前在声学模型中广泛应用的一种循环神经网络(Recurrent Neural Networks,RNN)结构。相比于普通的RNN,LSTM通过精心设计的门结构来控制信息的存储,输入和输出,同时可以一定程度上避免普通RNN的梯度消失问题,从而LSTM可以有效的对时序信号的长时相关性进行建模。作为声学模型的LSTM通常包含3-5个LSTM层,但是直接堆积更多的LSTM层构建更深的网络往往不会带来性能的提升,反而会由于degradation problem[3]使得模型的性能更差。
针对如何优化非常深的网络,最近有两种结构被提出来,称之为Highway Networks[4] 和ResNet[3]。这两种结构都通过在非线性变换的输出额外添加一个线性成分的方式,使得网络训练过程梯度可以更好的传递,避免由于网络太深导致的梯度消失问题。不同之处在于Highway Networks通过“门”来控制输出中的线性和非线性成分的比重,而ResNet则是更加直接的直接加上线性成分。实验表明两者都可以优化非常深层的网络的训练。Residual Networks在图像分类任务上获得了很大的成功。
关于Highway Networks 和ResNet一开始都是在图像分类任务上进行验证的,而且采用的卷积神经网络(Convolutional Neural Networks,CNN)。但是由于语音信号时序建模非常重要,所以最流行的模型还是LSTM。但是通常声学模型使用的LSTM一般只包含3-5个LSTM层。所以进一步的一些研究探索借鉴Highway Networks 和ResNet,优化LSTM的结构,分别提出了Redisual-LSTM[5],Highway-LSTM[6]和Recurrent Highway Networks (RHN) [7]用于语音声学建模。下面我们结合结合论文介绍相应的网络结构以及实验结果。
Paper1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition
Residual-LSTM通过在普通的LSTM的输出层之间添加一个skip connection,如上图红色框框中的公式表达。这样可以将底层的输出直接添加到高层,如果低层的输出层和高层的输出层节点数目相同,可以进一步采用和ResNet相同单位映射。实验室在100小时AMI会议数据库进行的验证,实验结果如下:
Paper2. Highway-LSTM and Recurrent Highway Networks for Speech Recognition
Highway-LSTM通过在相邻的LSTM层的cell之间建立一个线性连接,通过一个线性变换将底层cell中的表达添加到高层cell中。同时线性变换是受一个gate控制,gate的值是单前层的输入,单前层cell中表达,以及后一层cell中前一时刻的输出的一个函数。进一步的该论文中提出另一种深层的网络结构用于声学建模,称之为为ecurrent Highway Networks (RHN)。RHN的隐层采用如上图的Recurrent Highway Layer构成。
称
该论文是在一个12500小时的google voice search 任务上进行验证的。实验首先对比了普通的LSTM,Residual-LSTM,Highway-LSTM在该任务上的性能。从上图Exp1的实验结果可以看出在可比的配置下,Highway-LSTM(HW-LSTM)相比于Redidual-LSTM可以获得更好的性能。Exp2则对比了网络大小(20M,30M)情况下,HW-LSTM性能和隐层数目的关系,从结果上看通过Highway可以成功训练10层的网络,而且相比于5层网络可以获得一定的性能提升,但是进一步增加网络的隐层数目,也会出现性能的下降。
Exp3则对比了不同配置Highway-Recurrent Highway Networks(HW-RHW)再改任务上的性能。功过使用RHL层可以成功训练非常深的网络,最终深层的HW-LSTM和HW-RHW可以获得差不多的性能,并且相比于基线LSTM都有一定的提升。
对比以上两篇论文的实验结果,我们发现在两个不同的任务集上,关于Highway-LSTM和Residual-LSTM的性能对比结论刚好是相反。这和实验的任务集相关,HW-LSTM通过gate来控制网络中非线性变换和线性变换的成分。通常对于更加困难的任务更多非线性变换的模型往往具有更强的建模能力。所以google的论文在1.25万小时的任务上HW-LSTM相比于Residual-LSTM具有优势。这点我们可以进一步通过观察HW-LSTM的各个层的transform gate的值来分析。从上图我们发现
transform gate的值随着训练的进行值越来越大,说明了网络更趋向于选择非线性变换成分。
2.2 End-to-End ASR System
目前大多数语音识别系统到采用NN-HMM的混合系统。需要训练一个声学模型,语言模型,然后在结合词典进行解码。最新的一个研究热点是研究端到端的语音识别系统,希望可以去除HMM,直接从声学特征输入就可以得到识别的词序列。其中具有代表性的是CTC模型(Connectionist Temporal Classification)和基于Attention的Encoder-decoder模型。
Encoder-Decoder最早是应用于机器翻译领域[8]: 通过一个encoder对序列信息进行编码得到一个向量表达,然后作为decoder的输入。Decoder则是一个预测模型,利用历史输出和encoder得到的信息去预测输出。但是Encoder-Decoder框架在翻译很长的句子时候由于遗忘问题效果并不理想。一个改进的模型是引入attention机制。Attention机理是利用网络中的一些表达从Encoder中寻找和单前预测输出有关的一些输入,关系越密切attention向量的值越大。这样Decoder就可以获得一个额外的对当前预测输出有帮助的向量,从而可以避免长序列的遗忘问题。基于端到端的语音识别也可以看作一个sequence-to-sequence的翻译问题,输入的是声学特征,得到的是文本序列。所以基于Attention的Encoder-decoder框架很快被应用于语音识别。但是该框架存在一个问题,encoder需要接受整个序列以后,decoder才能产生输出,这对于识别的语音识别是不可接受的。基于这个问题,在interspeech2017上有研究提出了一种gaussian prediction based attention 来解决这个问题。具体的论文如下:
Paper3. Gaussian Prediction based Attention for Online End-to-End Speech Recognition
这篇论文的贡献主要有两点:
1)提出一种Gaussian prediction based attention解决通用的attention模型的延迟问题;
2)提出采用DCNN作为Encoder,相比于GRU可以获得更好的性能
Gaussian prediction based attention的公式表达如上图,其核心思想是假设attention的系数服从高斯分布,这在语音识别任务里是合理的。因为对于语音识别任务,和输出最相关的中心帧周边帧对预测输出都有贡献,但是这种贡献随着距离越远越小。从而Gaussian prediction based attention中不像传统的attention去计算每个时刻的attention系数,而是去预测一个Gaussian分布的均值和方差。进一步考虑到语音信号时序上单调性:下一时刻预测的atttention的中心帧应该比前一时刻更加靠后。基于此该论文采用公式9和10的相对预测方式。去预测一个正的偏移量而不是直接去预测高斯的均值。当前时刻高斯均值等于前一时刻的预测的均值加上一个正的偏移量得到。同时为保证实时性,采用如下的公式进行截断处理:
实验验证是在3小时TIMIT数据库,结果如下:
3 总结
希望大家通过阅读这篇文章可以对语音识别系统的声学模型和最新的研究热点有一定的了解。
参考文献:
[1]
Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.
[2] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on audio, speech, and language processing, 2012, 20(1): 30-42.
[3]
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[4]
Srivastava R K, Greff K, Schmidhuber J. Highway networks[J]. arXiv preprint arXiv:1505.00387, 2015.
[5]
Kim J, El-Khamy M, Lee J. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition[J]. arXiv preprint arXiv:1701.03360, 2017.
[6]
Zhang Y, Chen G, Yu D, et al. Highway long short-term memory rnns for distant speech recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 5755-5759.
[7]
Pundak G, Sainath T N. Highway-LSTM and Recurrent Highway Networks for Speech Recognition[J]. Proc. Interspeech 2017, 2017: 1303-1307.
[8]
Cho K, Van Merriënboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.
[9]
Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
[10]
Hou J, Zhang S, Dai L. Gaussian Prediction based Attention for Online End-to-End Speech Recognition[J]. Proc. Interspeech 2017, 2017: 3692-3696.