【深度学习笔记】样本不平衡处理方法

类别不平衡处理方法

前提假设:小样本数量为N。

过采样小样本(SMOTE),欠采样大样本

过采样:直接复制小样本,形成数量上的均衡——但会由于数据单一造成过拟合。

欠采样:随机去掉一部分多数样本,形成数量上的均衡——可能丢失一些重要的信息。
将多数样本分成N个簇,取每个簇的中心点作为多数类的样本,再结合少数类的所有样本进行训练,这样可以保证多数类样本在特征空间的分布特性。

集成学习

将多数类样本随机分成多组,每组N左右个样本,然后将每组数据和所有少量类数据一起训练,这样就得到了多个分类器。最后使用bagging或者boosting等集成学习方法进行模型集成。

即:保证每个分类器样本基本平衡;也充分使用了所有数据;但时间消耗比较大。

Focal loss

解决正负样本及难易样本不平衡。

对不同的类对应的损失函数,增加不一样的权值系数。

OHEM

OHEM将所有负样本按loss大小进行排序,然后根据正负样本1:3的比例去选取loss最大的负样本。比如某个batch中共有1000个样本,正样本有50个,负样本有950个,OHEM会将这从这950个负样本挑150个loss最大的样本做为负样本,其他800个负样本的loss重置为0。这样这个batch的loss由50个正样本和150个负样本组成,维持了正负样本比例, 另外OHEM挑选的是loss最大的150个负样本,150个负样本大部

你可能感兴趣的:(深度学习,机器学习,计算机视觉,深度学习,人工智能)