如何处理不平衡数据

采样法

过采样和欠采样

过采样:过拟合(学习到小类别样本中的噪声)
欠采样:欠拟合(丢失大类别样本中的重要数据)

SMOTE算法

找到小类别样本中的k个近邻,然后在他们之间的连线上取点,作为新的样本。

缺点:容易过拟合

Borderline-SMOTE

其与SMOTE的不同是:SMOTE是对每一个minority样本产生综合新样本,而Borderline-SMOTE仅对靠近边界的minority样本创造新数据。

Sampling with Data Cleaning Techniques

Tomek links用于去除重叠数据,其主要思想是:找出最近距离的2个样本(这2个样本属于不同的类),然后将这2个样本都去除,直到某一样本周围的近邻都是属于同一类。
如何处理不平衡数据_第1张图片

代价敏感方法

采样方法主要考虑正负例的分布,而代价敏感方法主要考虑误分类样本的代价,通过代价矩阵来度量。

也就是说,正负样本不平衡的问题是如果两类错误的代价都相同的话,则学习的目标就相当于最大化accuracy,而如果我们增大将小类别识别为大类别类的代价的话,就相当于考虑了模型召回率或precision。

这样就会使得模型更注意小类别的准确性。

核算法

不平衡数据的主动学习算法

例如在SVM中每次选择距离分离超平面最近的样本点,这样最后选择的样本点比例不会出现太多的差别,

你可能感兴趣的:(如何处理不平衡数据)