WAV2VEC:语音识别非监督预训练模型

1 简介

本文根据2019年《WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION》翻译总结的。

在图像、NLP领域,预训练已大放异彩,而语音识别领域尚缺乏。本文提的WAV2VEC就是语音识别方面的非监督预训练模型,也如论文题目所说。相比Deep Speech 2,WER(word error rate)从3.1%降到2.43%。

2 预训练方法

2.1 模型

原始的语音样本x;
特征表达z;
WAV2VEC:语音识别非监督预训练模型_第1张图片

如上图所示,原始的语音应作用到两个网络,其中encoder 网络将x变成z,context 网络将z变成c。

WAV2VEC:语音识别非监督预训练模型_第2张图片
在这里插入图片描述

encoder 网络和context 网络的层中都包括一个512 channels的causal convolution、一个group normalization layer 和一个 ReLU nonlinearity。

2.2 wav2vec large

encoder使用了两个附加的linear transformations;
context网络增加到12层,增加 kernel sizes (2, 3, . . . , 13).
也使用了skip connection,帮助收敛。
最后的context网络层,感受野增加到810毫秒。

2.3 目标函数

WAV2VEC:语音识别非监督预训练模型_第3张图片

2.4 输入声学模型

在训练后,我们将c_i代替log-mel filterbank features输入到声学模型。

3 实验

我们使用wav2letter++工具包训练和评估声学模型。

3.1 Decoding

我们从context网络c输出(或者log-mel filterbank)来decode 单词序列y:
WAV2VEC:语音识别非监督预训练模型_第4张图片

4 结果

从下表可以看出来,最好的wav2vec large相比Deep Speech 2,WER(word error rate)从3.1%降到2.43%。

WAV2VEC:语音识别非监督预训练模型_第5张图片

你可能感兴趣的:(语音识别,人工智能,语音识别,人工智能)