样本不平衡问题及解决方法

样本不平衡问题

样本不均衡:数据集中不同数据类别的比例差距比较大,即有的类别数据量很多,有的类别数据量很少。产生了一种类别样本分布不平衡的现象。

比如,类别样本比例:

1:2到1:10(轻微不平衡),超过1:10(严重不平衡)。

解决方法

一般常见解决方法分为数据层面和算法层面。

1、数据层面(采样、数据合成、数据增强)

数据增强:直接复制小类样本,对小类样本数据经过一定的处理,做一些小的改变等。

1)采样(随机采样):

随机欠采样:从多数类样本集中随机选择较少的样本(有放回/无放回)。

缺点:欠采样中丢失了部分样本,可能损失有用的信息,造成模型对某些特征的欠拟合。

随机过采样:从少数类样本集中随机重复抽取样本(有放回)以得到更多的样本。

缺点:过采样对少数样本进行了复制多份,虽然扩大了数据规模,但是也容易造成过拟合。       

2)数据合成:

文本领域(离散空间):裁剪,翻转,旋转,加噪声,SMOTE方法

图像领域(连续空间):去停用词,同义词替换,加噪声,回翻译

2、算法层面(修改损失函数值、难例挖掘)

1)带权值的损失函数

为小样本标签增加损失函数的权值,即一个小样本设置权值多次使用,类似于过采样。

2)新损失Focal loss

在原来带权值的loss函数的基础上进行了改进,继续改进损失函数的权值。

详见:

何恺明大神的「Focal Loss」,如何更好地理解? - 知乎

Focal Loss for Dense Object Detection

3)难例挖掘

挖掘出模型预测效果较差的样本,然后对这些样本再进行重新训练。

4)数据增强:

生成对抗网络(GAN)、自监督对比学习(SSL)等模型算法。

你可能感兴趣的:(深度学习基础理论知识梳理,机器学习,人工智能,深度学习,数据分析)