混合样本数据增强(Mixed Sample Data Augmentation)


混合样本数据增强(Mixed Sample Data Augmentation,MSDA)目前非常火热,由于其实现简单且对性能提升确实有帮助,因此在图像识别、声音识别、GAN、半监督学习等领域均有广泛的应用。

MSDA的代表性算法是Mixup,最早出现在ICLR2018的论文“Mixup: Beyond Empirical Risk Minimization”中。关于这篇论文,博主专门写了一篇文章进行了介绍【深度学习】Mixup: Beyond Empirical Risk Minimization,有兴趣的可以去看看。

Mixup算法的核心思想是按一定的比例随机混合两个训练样本及其标签。这种混合方式不仅能够增加样本的多样性,并且能够使不同类别的决策边界过渡更加平滑,减少了一些难例样本的误识别,模型的鲁棒性得到提升,训练时也比较稳定。下图展示了基于Mixup算法的training pipeline,

混合样本数据增强(Mixed Sample Data Augmentation)_第1张图片

受Mixup算法思想的启发,大量MSDA算法涌现出来,包括结合Mixup和mask,对Mixup方法进行Adaptive学习等。目前,MSDA相关算法主要应用在分类任务中,其中图像分类相关论文居多。但是,不同领域的研究者也在尝试mixup方法和本领域任务的结合,比如NLP、Semi-supervised Learning、GAN等领域。

 

博主整理了近几年MSDA相关论文和代码,并分享在github上,地址如下,

https://github.com/JasonZhang156/awesome-mixed-sample-data-augmentation

如果大家对MSDA算法有兴趣,可以star或者fork到自己的仓库。

博主会对内容持续更新!

你可能感兴趣的:(深度学习,混合样本数据增强,mixup,数据增强)