频谱增强SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition
论文链接:https://arxiv.org/pdf/1904.08779.pdfSpecAugment是一种log梅尔声谱层面上的数据增强方法,可以将模型训练的过拟合问题转化为欠拟合问题,以便通过大网络和长时训练策略来缓解欠拟合问题,提升语音识别效果模型:输入特征:Fbank特征声谱增强:将log梅尔声谱的时域和频域看作二维图像,时间片长度为τ,频域长度ν时间扭曲,穿过图像中心的水平直线上,(W