用于语音识别的数据增强

原标题:用于语音识别的数据增强

Data Augmentation for Speech Recognition

作者 | Edward Ma

翻译 | 类更里、敬爱的勇哥 编辑 | 咩咩咩鱼、唐里

https://towardsdatascience.com/data-augmentation-for-speech-recognition-e7c607482e78

用于语音识别的数据增强_第1张图片

来自 Unsplash 的摄影:Edward Ma

语音识别的目标是把语音转换成文本,这项技术在我们生活中应用很广泛。比如说谷歌语音助手和亚马逊的 Alexa ,就是把我们的声音作为输入然后转换成文本,来理解我们的意图。

语音识别和其他NLP问题一样,面临的核心挑战之一是缺少足够的训练数据。导致的后果就是过拟合以及很难解决未见的数据。Google AI Resident 团队通过做几种数据增强的方式来解决这个问题。

本文将会讨论关于 SpecAugment:一种应用于自动语音识别的简单的数据增强方法(Park et al.,2019),将涵盖以下几个方面:

数据

结构

实验

数据

为了处理数据,波形音频转换成声谱图,然后输入神经网络中进行输出。做数据扩充的传统方式通常是应用在波形上的,Park 等人则是直接应用在声谱图上。

你可能感兴趣的:(用于语音识别的数据增强)