非平衡样本处理方法-SMOTE算法

对于我们日常中训练数据时,原始采集的数据中正负样本比例并非一定是平衡或等比的。

平衡的定义:在金融评分数据领域中的负正样本比例在1:20内都算数据样本平衡。其他领域具体分析;

对于非平衡的数据样本处理方法正常有如下几种思路:

1.    过采样;(会产生过拟合问题)

2.    降采样;(丢失数据)

3.    给正负样本分别赋予权重值,如:给样本数量少类给予相对高的权重比例值。或者样本数据多的类设定相对低的权重比例值。以此达到正负样本数据平衡的要求。

4.    通过前人提出的SMOTE算法来做样本平衡处理;

    SMOTE算法本质是一种过采样的处理数据方法。

        其优点:克服了单纯过采样的过拟合情况;

            缺点:不能对有缺失值和非数值型的变量做处理。

SMOTE算法流程如下:

Step1:     使用最近邻算法采样,计算比例小样本类的K近邻;(K个同类的近邻)

Step2:    从K近邻的数据中随机的选择N个样本进行随机线性插值。(随机的给定变异权重,$N \lep K$)

Step3:    构造新的少数类样本:

                           $$new = x_{i}+rand(0,1)\cdot \left ( y_{i}-x_{i} \right ),j=1,2,\cdots ,\mathit{N}$$

                其中$x_{i}$为样本中某条样本,$y_{j}$为K近邻中随机抽取的样本

Step4:    将新样本和原始数据合成,产生新的数据集。

    这里样本之间的权重可以给定不同值,同一样本内不同特征的权重需要相同。

     只适合做数值型数据处理

真实环境中,遇到非数值型数据该如何处理:

      1.    将非数值型数据转换为数值型,如果类别型数据做one-hot编码处理等。

       3.   将算法Step1 中的K近邻方法改为K-Mean聚类方法,。。。待考虑

SMOTE 改进实现待写。。。



                        

你可能感兴趣的:(machine,learning)