SMOTE过采样

SMOTE(合成少数类过采样),是基于随机过采样方法的一种改进方案。随机过采样通过简单复制样本的方式来增加少数样本,容易产生模型过拟合的问题。SMOTE的基本思想是对少数类样本进行分析并人工合成新样本。流程如下:

  • 对于少数类中的每一个样本,以欧式距离为标准计算它到少数类样本集中所有样本的问题,得到近邻。
  • 根据样本不均衡比例,设置一个采样倍率。对每一个少数类样本,从其近邻中随机选择个样本,假设选择的近邻为。
  • 对于每一个随机选出的近邻,分别与原少数样本构建新样本。


得到个新样本。

的大小,可根据需要数据不平衡程度需进行过采样的倍率来决定。从而须有,但到底取多大,还需要根据数据集反复测试。

你可能感兴趣的:(SMOTE过采样)