最新综述:用于文本分类的数据增强方法

最新综述:用于文本分类的数据增强方法_第1张图片

©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学本科生

研究方向 | 自然语言处理

概要

数据增强,即通过转换为机器学习人工创建训练数据,是跨机器学习学科广泛研究的研究领域。它不仅对于提高模型的泛化能力很有用,也可以解决许多其他挑战和问题,从克服有限数量的训练数据到规范目标到限制用于保护隐私的数据量。

基于对数据增强的目标和应用的精确描述以及对现有工作的分类,本篇综述关注用于文本分类的数据增强方法,旨在为研究人员和从业者提供简明而全面的概述。根据分类法,我们将 100 多种方法分为 12 个不同的组,并提供了最先进的参考资料,阐述了哪些方法非常有前途。最后,给出了可能构成未来工作基石的研究观点。

最新综述:用于文本分类的数据增强方法_第2张图片

论文标题:

A Survey on Data Augmentation for Text Classification

论文链接:

https://arxiv.org/abs/2107.03158

引言

训练数据的增加并不总是导致学习问题的解决方案。尽管如此,数据对于监督分类器的质量仍然是决定性的。计算机视觉领域中就存在着许多不同的方法来人工创建此类数据,称为数据增强。对于图像,RGB 通道的旋转或变化等变换是合理的,这些模型应该是不变的。与计算机视觉类似,语音识别使用改变声音或速度的程序。相比之下,自然语言处理(NLP)中的数据增强研究难以为文本数据的转换建立通用的可以在保持标签质量的同时自动执行规则。这就是为什么尽管存在广泛的应用领域,在 2019 年之前该领域的研究还是十分有限。

如今,这一挑战仍然存在,但许多科学家正在不同的研究方向中解决。在这些方向中,遵循着各种目标,例如,为低数据制度生成更多数据、平衡不平衡的数据集类别或针对对抗性示例的安全性。

因此,文本数据增强有许多对比形式,在本次综述中进行了分组和解释。我们进行了深入分析,并尝试将这些方法与最先进的方法联系起来。由于迁移学习的兴起,这些方法面临着另一个挑战。

例如,Longpre 等人表明,许多数据增强方法在使用大型预训练语言模型时无法获得收益,因为它们本身已经对各种变换保持不变。他们假设数据增强方法只有在创建以前从未见过的新语言模式时才能真正有益。需要牢记,本综述以对方法的元视角结束。因此,本次调查追求以下方面的贡献:

  • 目标和应用:我们强调了从综合回顾中得出的数据增强的目标和应用。这些在以前的研究论文中仅在有限且不完整的程度上进行了介绍。

  • 分类法和分类:文本分类数据增强方法将根据高级分类法进行聚类,然后细分为更细粒度的组。这也存在于 Shorten 和 Khoshgoftaar 以及 Wen 等人的调查中,现在适用于文本分类领域。

  • 概述和深入细节:对文本数据增强方法以清晰的形式进行了解释,并提供了分隔和相互比较所需的细节。与其他作品相比,我们广泛的研究包含 12 个组,其中包含 100 多种不同的方法。

  • 最先进的综述:在文献调查中,我们试图检索最新的最先进的考虑因素,例如,使用大型预训练模型的文本数据增强方法的有限好处,这些在当前工作中经常被忽视的点。

  • 未来的研究前景。我们确定了未来的研究机会,这些机会要么是SOTA的比较所必需的,要么是由于当前文本数据增强的挑战所需要的研究机会。

数据增强方法分类

如图,是不同数据增强方法的分类和分组:

最新综述:用于文本分类的数据增强方法_第3张图片

用于文本分类的的数据增强方法集合

如图,是一些最先进的文本分类数据增强技术的集合:

最新综述:用于文本分类的数据增强方法_第4张图片

总结

这篇综述概述了适用于文本领域的数据增强方法。数据增强有助于实现许多目标,包括正则化、最小化标签工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及提高对抗对抗性攻击的鲁棒性。在高层次上,数据增强方法分为应用于特征空间和数据空间的方法。然后将这些方法细分为更细粒度的组,从噪声诱导到全新实例的生成。

此外,我们提出了几个与未来工作相关的有前景的研究方向。尤其是在这方面,需要对当前技术水平进行全面了解。例如,随着迁移学习方法的使用越来越多,一些数据增强方法已经过时,因为它们遵循类似的目标。因此,需要更复杂的方法,例如 Longpre 等人所建议的那样,引入在预训练期间未见过的新语言模式。

虽然数据增强得到越来越多的研究并且非常有前途,但它也有一些局限性。例如,许多数据增强方法只有在原始数据量足够大的情况下才能创建高质量的增强数据。此外,就像 Shorten 和 Khoshgoftaar 描述的那样,数据增强无法涵盖所有转换可能性并消除原始数据中的所有类型的偏差。

以 Shorten 和 Khoshgoftaar 的例子为例,在没有包含体育文章的新闻分类任务中,标准数据增强方法肯定也不会创建体育文章,即使这是必要的。相比之下,数据增强可能会导致新的不良偏差。例如,像 GPT-2 这样的语言模型可以包含偏差,然后将偏差传播到数据集中。各种各样的技术和一些非常复杂的方法也带来了另一层需要理解的复杂性。

此外,数据增强可能需要大量时间,因此并非所有方法都适用于时间关键的机器学习开发领域,例如,在危机信息学的某些领域。随着数据增强,也需要更多资源,尤其是在训练生成模型的背景下。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

最新综述:用于文本分类的数据增强方法_第5张图片

最新综述:用于文本分类的数据增强方法_第6张图片

最新综述:用于文本分类的数据增强方法_第7张图片

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

最新综述:用于文本分类的数据增强方法_第8张图片

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

你可能感兴趣的:(机器学习,人工智能,深度学习,编程语言,计算机视觉)