Audio-预训练模型(一):概述

基于判别学习的语音预训练模型的发展历程大致从DeepmindCPC开始,FAIRwav2vec系列工作(Wav2vec, Vq-wav2vec, Discret BERT, Wav2vec 2.0,Wav2vec-U)专注于语音识别任务,一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型,一步步地挑战更为困难的语音识别数据集,使用更少的有标注数据或者完全使用无标注的数据,取得更好的结果。近期FAIR又提出HuBERT模型直接使用MLM的方式预测事先聚类好的离散的target。以及近近近期Meta AIdata2vec模型直接使用掩码加在线蒸馏的方法不仅在语音ASR达到SOTA,还在图像和NLP领域也有强劲的实力。(从CPC到data2vec都是旨在提出一个语音/vision/NLP都可以使用的一个自监督学习方法,从RNN时代到Transformer时代,仿佛历经一场轮回,但其实发表时间只是时隔3年而已…)

再看谷歌这边使用自家的Conformer框架一次次的基于Wav2vec2.0自监督训练方法针对于语音识别任务"pushing the limits",把预训练模型做的更大更强,用1百万小时的youtube语音数据训练了8B参数的BigSSL,也把Wav2vec2.0和HuBERT模型结合提出了W2V-BERT模型,进一步刷新了自己的SOTA。

与此同时,微软也基于Wav2vec2.0提出了UniSpeec

你可能感兴趣的:(#,Audio/预训练模型,语音,Audio)