读论文笔记1:Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks

初读论文,不准确之处敬请谅解,欢迎指正

参考文献:[Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks](https://aclanthology.org/2022.acl-short.97) (Wu et al., ACL 2022)

一.生词:

low-resource regime        低资源状态

data augmentation        数据增强

alleviate overfitting        缓解过拟合

semantically        语义

context augmentation        语境

LTSM        长短期记忆

sampling        采样

MLM        屏蔽语言模型

bi-directional        双向

contextual-compatible        上下文兼容

word embedding matrix        词的矩阵嵌入

sentiment classification        情感分类

supervision        监督

interpolate        插入

interpolation        插值

derived from        源于

interpolation operation        插补运算

prepending        预算

prompt        提示

部分术语:

one-hot representation: a vector of the vocabulary size with only one position is 1 while the rest positions are 0(一个词库大小的向量,只有一个位为1,其它位为0)

EDA:包含synonym replacement(同义词替换)、random insertion(随机插入)、random swap(随机交换)、random deletion(随机删除)四种运算

Back Translation:翻译过去再翻译回来

CBERT:用预先训练好的BERT获得语义替换

BERTexpand, BERTprepend:通过在给定类的所有示例前添加类标签来调整BERT

GPT2context:给预先训练好的GPT提示并且不断生成文本

BARTword, BARTspan:通过在给定类的所有示例前添加类标签来调整BART(BARTword标单个词,而BARTspan标连续的整块)

这篇文章讲述的是关于data augmentation(数据增强)的方法,名为text smoothing

通过converting a sentence from its one-hot representation to a controllable smoothed representation(将一个句子从独热编码表示转化为可控的平滑表示)(在低资源状态下进行)

实验代码的地址为:https://github.com/caskcsg/TextSmoothing.

实验原理图如下:

读论文笔记1:Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks_第1张图片

核心步骤:

We combine the two stages as text smoothing: obtaining a smooth representation through MLM and interpolating to constrain the representation more controllable.(获得smooth representation和插入其约束表达更加可控)

obtaining a smooth representation:

 (ti为独热编码)

 smooth representation:        

再运行mixup strategy(混合策略),得到的

即为所求

实验基准方法:

 EDA、Back Translation、CBERT、BERTexpand, BERTprepend、GPT2context、BARTword, BARTspan

实验采用了3个文本分类数据集:SST-2、SNIPS、TREC

实验结果:

读论文笔记1:Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks_第2张图片

 可以看出其在低资源状态下的数据增强还是很有效的

 

  

你可能感兴趣的:(论文笔记,自然语言处理,bert,nlp)