如何解决分类任务中的样本不均衡问题

如何解决分类任务中的样本不均衡问题_第1张图片

大家好,今天我们来谈一谈样本不均衡问题及处理方法。

一、什么是样本不均衡问题

样本(类别)不均衡(class-imbalance)指的是分类任务中不同类别的训练样例数目差别很大的情况,一般地,样本类别比例(ImbalanceRatio)(如正类和负类)明显大于1:1(如4:1)就可以归为样本不均衡的问题。

现实中,样本不平衡是一种常见的现象,如金融欺诈交易检测,欺诈交易的订单样本通常是占总交易数量的极少部分,因此就会产生正常样本数量明显大于异常样本数量的情况。

如何解决分类任务中的样本不均衡问题_第2张图片

二、样本不均衡有什么影响

如果在样本极度不均衡的情况下去训练模型的话,模型就会学习到训练集中样本比例的这种先验性信息,以致于实际预测时就会对多数类别有侧重(可能导致多数类精度更好,而少数类比较差)。

也就是说我们学习到的模型只能识别出正类(样本多的一方)࿰

你可能感兴趣的:(白话机器学习,机器学习,算法,数据挖掘)