机器学习----线性模型:类别不平衡问题及其解决办法

定义:

在分类任务中,不同数目的训练样本例数据差距很大的情况

假如类别数量设定\frac{y}{1-y}>0.5是正例,类别不平衡时\frac{y}{1-y}>\frac{m^{+}}{m^{-}}为正例,其中m+,是正例数目,m-是反例数目。

解决方法:

1.在训练样本中,将反例样本进行欠采样,使正反样本数接近,然后再进行学习;

2.在训练样本中,对正例样本进行过采样,是正反样本数接近,然后进行学习;

3.对分类器的判定标准进行“阈值移动”,即,判别准则变为:

\frac{y^{'}}{1-y^{'}}>\frac{y}{1-y}\times \frac{m^{-}}{m^{+}}

注意:

1.欠采样会使训练数据集变小,过采样会使数据集变大,所以两者计算开销是不同的;

2.不能简单的对数目少的样本进行简单的重复采样,不然会导致严重的过拟合;代表性算法是SMOTE,通过对训练样本里数目少的样本数进插值来产生额外的样本数;

3.不不能随机的对数目多的样本进行丢弃,这可能会导致一些重要的信息丢失。代表性算法是EasyEnsemble,利用集成学习机制,将样本数目多的划分为若干个集合供不同的学习器使用,这样对每一个学习器都进行了欠采样,但对全局来说不会丢失重要的信息;

你可能感兴趣的:(机器学习,人工智能,算法)