NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task

代码:eda
EDA 文中提到了4种数据增强技术 用于文本分类任务,并用了2种常用的文本分类的深度学习模型在5个benchmark上跑了一下分类(5个banckmark: SST-2, CR, SUBG, TREC, PR), 在跑模型的时候作者将训练集分为3种规模大小 从而比较EDA技术在训练数据集规模上的影响。

4种数据增强技术:

  • 同义词替换
  • 随机插入
  • 随机交换
  • 随机删除
    NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第1张图片

5个banckmark:

  • SST-2
  • CR
  • SUBG
  • TREC
  • PR (Pro-Con)

训练集3个种数据集规模:

  • 500
  • 2000
  • 5000

结果分析:

在规模小的训练数据集上,效果越明显,2000和5000 的ACC提高0.8%, 在500的上面提高3%。
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第2张图片

因为小数据集上容易过拟合,所以作者对比了一下正常训练和带EDA的训练 在不同训练集比例上 的对比。可以看到最后一个f是5个数据集的平均acc 的结果对比,带EDA的用50%的数据就可以达到88.6%,不带EDA的100%的训练集才能达到88.3%。
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第3张图片

EDA增强产生的文本和原文本对比

因为上面的4种数据增强技术,只是对原句子进行操作,并没有对label进行更改操作,所以作者又分析了一下 通过上面的更改 看对原句子的 语义有没有影响,如果有影响 那就不合适了。
作者对Pro-Con这个数据集进行分析,先用不带EDA的方法训练,然后在test set上用EDA使得每个原始的句子 生成9个增强的句子,然后再放到网络里面训练。 然后从网络最后一层提取出句子的向量。通过t-SNE进行聚类分析,可以看到下图中 大三角和大圆圈都是原来的句子,小三角和小圆圈都是数据增强的句子,可以看出来都各自在各自的附近,没有发生标签的偏移,这也就表面上面提到的4种数据增强技术 不会影响他们的原始标签。
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第4张图片

消融研究

看看这4种方法 哪个起作用跟多,与数据集大小和每个原始数据生成多少增强的数据有没有关系。其中a就是改变的比例。可以看到a=0.5也就是句子里面50%的单词都发生的变化。可以看到4种方法都有提升,对SR,在a小的时候提升更好,替换的多了acc反而会下降, 对RI,插入的单词相对来说影响比较平稳,可能是因为只是随机插入 不会影响原来的句子顺序 所以相对来说 结果比较平稳,对于RS,可以看到a<0.2的时候acc较高,大于0.3之后开始降低了,交换太多次单词 相当于随机打乱句子,句子里面单词的前后关系就受影响,RD在a较小时 acc较高,a较大时acc减小,删除太多单词了。
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第5张图片

超参数设置

具体怎么实施这种数据增强技术呢? 一个句子里面操作的比较设置多少好?一个句子生成多少个增强句子比较好?
作者做了个实验对比,navg是1个句子生成多少个增强句子。可以看出来根数据集大小有关系。
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第6张图片
作者建议超参数如下:
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第7张图片

数据增强技术对比分析

其他增强技术 还需要训练一个语言模型 比较麻烦,EDA比较简单。
NLP论文笔记:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Task_第8张图片

最讨论和限制性分析

NLP 像来缺少数据增强技术,EDA相当于作为一个驱动和NLP数据增强的基准。
目前EDA的缺点:数据足够的时候,增强的效果有限。上面5个任务中 当用全部数据做训练时 acc提高不到1%。数据集小的时候 增强效果更好。使用预训练模型时 EDA还没有产生显著的提升.

其他的NLP增强技术 可以参考:NLP数据增强综述

你可能感兴趣的:(NLP)