DFSMN——Alibaba2018

论文:DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION Alibaba 2018
DFSMN 特点:跳层连接,更深的层数。和LFR结合。模型尺寸更小,低延迟。
实验结果表明DFSMN是用于声学模型的BLSTM强有力替代方案。

skip connections
BLSTM网络
lower frame rate(LFR) 低帧率
CD-phones
unfold-RNN 展开RNN
TDNN
FSMN feedforward sequential memory networks
cFSMN 紧凑FSMN
skip connections使信息流跨越不同层,从而缓解深度网络中的梯度消失问题。
DFSMN与LFR结合加速解码并优化DFSMN结构以满足延迟要求。
LCBLSTM
FSMN灵感来自于数字信号处理中滤波器的涉及知识,任何IIR可以用高阶FIR来近似。
FSMN通过增加一些存储块来扩展标准前馈全连接神经网络,这些存储块采用FIR滤波器中的抽头延迟线结构,进入隐藏层。
sFSMN 标量FSMN vFSMN 矢量FSMN
在cFSMN中,是将标准隐层用低秩权重矩阵分解技术分解为两层。
skip connections ,residual 或highway networks
DFSMN结构
DFSMN——Alibaba2018_第1张图片
DFSMN——Alibaba2018_第2张图片
语音信号由于在加窗时有重叠,相邻帧之间有较强冗余信息。类似于wavenet中的扩展卷积,我们在内存块中加入步长因子来移除冗余。
实验设置:
1.英文识别任务
训练集:Fisher 2000h
测试集:Hub5e00
输入8kHz,25ms汉明窗10ms帧移。 72维filter-bank(FBK)特征,包括分布在梅尔尺度上的24个对数能量系数,及其一阶导数和二阶导数。 3-gram语言模型,训练自转录文本。
混合DNN-HMM基线系统,使用从MLE(最大似然估计训练准则)训练得到的GMM-HMM基线系统获得绑定状态对齐来训练传统的CD-DNN-HMM模型。
DNN包含6个隐层,每层2048个神经元,使用ReLU函数激活。
输入是拼接的filter-bank特征,上下文窗口大小为15(7+1+7)。
混合BLSTM-HMM基线系统,有3个BLSTM层,每层单向1024个神经元,后面接一个512个神经元的低秩线性循环投影层。
cFSMN基线系统,372-4[2048-512(20,20)]-3*2048-512-9004,输入是72维filter-bank特征上下文窗口为3,cFSMN由4个cFSMN层组成,后面跟3个ReLU DNN隐藏层和一个线性投影层。
使用8个GPU的BMUF优化和帧级交叉熵准则,以分布式方式训练所有模型。初始学习率为0.00001,momentum保持0.9.DNN和BLSTM中,mini-batch 小批量训练设置为4096.BLSTM模型使用16序列的mini-batch的标准全序列BPTT训练。性能如下图:
DFSMN——Alibaba2018_第3张图片
表1,第三个模型BLSTM(6)中6个隐层(每层每个方向512个神经元),用4-gram语言模型解码得到10.3%WER。所提出的DFSMN,通过纯粹只是用CE准则而不用任何特征空间或说话人空间自适应技术达到9.4%WER,与基线BLSTM系统相比,所提出的DFSMN可以通过更小的模型尺寸实现1.5%的WER下降。
其他结构DFSMN,3 72-Nf[2048-512(N1;N2; s1; s2)]-Nd 2048-512-9004,Nf是cFSMN层数,Nd是DNN ReLU层数。
N1 = 20;N2 = 20;Nd = 3。
DFSMN——Alibaba2018_第4张图片
2.中文识别任务
训练集:5000h 和 20000h
测试集:30h 对CER(字符错误率)进行性能评估。
采样率:16kHz,声学特征是80维的对数梅尔滤波器组能量系数,25ms窗,帧移10ms。
1)5000h训练集
实验中,采用CD-state和CD-phone作为建模单元评估DFSMN性能。为了比较,训练了LCBLSTM(latency controlled BLSTM)作为基线系统。对于CD-phone模型,使用帧率为30ms的LFR(低帧率)技术。
对于CD-state的传统混合模型,用CE准则训练CD-DNN-HMM,用于重新对齐并生成新的10ms帧级目标。HMM由14359个CD-states构成。基线CD-LCBLSTM-HMM混合系统,采用Nc=80 and Nr=40来训练LCBLSTM。基线LCBLSTM有3个BLSTM层(每层单个方向500个存储神经元),2个RELU DNN层(每层2048个隐藏节点)和一个softmax输出层。cFSMN基线模型结构为3 80-6[2048-512(20; 20)]-2
2048-512-14359.输入层是80为filter-bank特征,LCBLSTM和cFSMN的上下文窗口分别是1和3。
对于采用CD-phones的LFR训练混合模型,首先将14359个CD-states映射到9841个CD-phones,然后通过平均3个one-hot目标标签(LFR为30ms)进行子采样,产生软LFR目标。对于基线LFR训练的LCBLSTM系统(LFR-LCBLSTM),采用和基线系统相似的模型结构,Nc=27and Nr=13.
对于LFR训练的cFSMN模型(表示为LFR-cFSMN),训练了cFSMN(6)、cFSMN(8)、cFSMN(10)。输入是80维filter-bank特征,LCBLSTM和cFSMN的上下文窗口分别为17和11.对于LFR训练的DFSMN模型(LFR-DFSMN),模型结构为11 *80-Nf * [2048-512(N1;N2; s1; s2)]-Nd *
2048-512-9841.实验中,设置N1 = 10;N2 =5; s1 = 2; s2 = 2;Nd = 2,然后评估LFRDFSMN(8)和LFRDFSMN(10)的性能。
所有模型使用8个GPU的BMUF优化和帧级交叉熵准则,采用分布式训练。
DFSMN——Alibaba2018_第5张图片
CD-phones性能优于CD-states。
cFSMN和DFSMN都可以从深层网络结构中获益,并且相同模型拓扑结构下,DFSMN性能优于cFSMN。
训练深层LCBLSTM以实现较好性能,比如Highway-LSTM。
表4为LFR-LCBLSTM和LFR-DFSMN模型训练时间和解码实时因子RTF,可以看出DFSMN比LCBLSTM可以实现3倍加速。

DFSMN——Alibaba2018_第6张图片
2)20000h训练集
LFR-LCBLSTM拓扑结构同5000h的配置。
LFR-DFSMN(10)拓扑结构:11 80-10[2048-512(5;N2; 2; 1)]-2_2048-512-9841,固定了FSMN层数(Nf),DNN层数(Nd),回溯滤波器阶数(N1)并尝试研究不同的前瞻滤波器阶数(N2)对性能的影响。使用16个GPU上的BMUF优化和帧级交叉熵准则,以分布式方式训练所有模型。
DFSMN——Alibaba2018_第7张图片

对于基线LFR-LCBLSTM,Nc = 27 and Nr = 13,时间实例的延迟帧数是40.对于LFR-DFSMN,可以通过设置先行滤波器阶数来控制延迟帧的数量。表5中的实验结果表明,在DFSMN中,当将延迟帧数从20较少到5时,性能仅损失5%,因此延迟大约为150ms(30ms*5),可以用于实时应用。

你可能感兴趣的:(深度学习,语音识别)