NLP学习之数据增强问题思考

1. 数据增强旨在通过变换生成现有训练样本的变体,从而创建更多的训练数据,这些变换往往可以反映现实世界中会发生的变化。在计算机视觉(CV)任务中,常见的数据增强方法有 mirroring(镜像反转)、random cropping(随机裁剪)、shearing(修剪) 等。它的效果十分显著,如在AlexNet[1]中具有出色的防止过拟合能力,它也因此被大多数最先进模型所使用。 但是,在NLP任务中,数据增强就不那么应用广泛了。在我看来,这可以被归结为两点:
  • NLP中的数据是离散的。它的后果是我们无法对输入数据进行直接简单地转换,而大多数CV工具则没有这个限制,如domain randomization[2]。

  • 小的扰动可能会改变含义。在NLP中,删掉一个否定词可能会改变整个句子的情绪,而修改一段话中的某个词甚至会改变语意。但CV不存在这种情况,不论图像中的是猫还是狗,扰动单个像素一般不会影响模型预测,甚至都不会出现明显变化,如插值就是一种有效的图像处理技术[3]。

2. 反向翻译是NLP在机器翻译中经常使用的一个数据增强的方法。。其本质就是快速产生一些不那么准确的翻译结果达到增加数据的目的。

NLP:迁移学习

然而在NLP中,我们到目前为止还是只能通过预训练嵌入来预训练模型的第一层

你可能感兴趣的:(NLP学习之数据增强问题思考)