Audio-预训练模型-2019:wav2vec【利用自监督方式训练得到每一帧音频文件的表示(相对于机理特征的优势:可以融入上下文信息);替换MFCC等通过机理得到的特征】


Facebook AI Research团队的文章,wav2vec: Unsupervised Pre-training for Speech Recognition

该模型非完整的ASR,而是一个将wav通过标记的、未标记的数据,通过无监督的方式进行训练,得到可以送入ASR中的向量;以提升ASR的准确率;

一、介绍

当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能(Amodei et al., 2016 [1])。最近,在标注数据缺少的情况下,神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练,再在数据量受限的目标数据上fine-tune来提高下游任务的性能。对于需要大量工作来获取标记数据的任务(例如语音识别),这种预训练的方法尤其有效。

在本文中,作者提出了wav2vec模型,通过多层的卷积神经网络来提取音频的无监督语音特征。模型训练时的损失函数选取的是对比损失函数(contrastive loss),在训练时将正例间的距离拉近,负例间的距离拉远。

二、模型方法

整个模型分为两部分,encoder网络 f 和context网络 g ,分别得到浅层和深层的无监督语音特征,模型结构如图1所示。
Audio-预训练模型-2019:wav2vec【利用自监督方式训练得到每一帧音频文件的表示(相对于机理特征的优势:可以融入上下文信息);替换MFCC等通过机理得到的特征】_第1张图片
encoder网络

你可能感兴趣的:(#,Audio/预训练模型,人工智能,深度学习,语音识别)