数据预处理-样本均衡

《Python数据分析与数据化运营 第2版》读书笔记

一、样本不均衡的表现及影响

样本类别分布不均衡主要出现在与分类相关的建模问题上,所谓的不均衡指的是不同类别的样本量差异非常大。
样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。
大数据分布不均衡;这种情况下整体数据规模大,只是其中的小样本类的占比较少。但是从每个特征的分布来看,小样本也覆盖了大部分或全部的特征。例如,在拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。
小数据分布不均衡;这种情况下整体数据规模小,并且占据少量样本比例的分类数量也少,这会导致特征分布的严重不均衡。例如,拥有1000条数据样本的数据集中,占有10条样本的分类,其特征无论如何拟合也无法实现完整特征值的覆盖,此时属于严重的数据样本分布不均衡。
影响:样本分布不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律。即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题。当模型应用到新的数据上时,模型的准确性和健壮性将很差。

二、样本不均衡的解决方案

  1. 通过过抽样和欠抽样解决样本不均衡
    过抽样:又称上采样(over-sampling),通过增加分类样本量较少的样本来实现均衡,如直接复制少数样本增加记录,缺点是可能会导致过拟合
    欠抽样:又称下采样(under-sampling),通过减少分类样本量较多的样本来实现均衡,如直接删除样本,缺点是会丢失信息

  2. 通过正负样本的惩罚权重解决样本不均衡
    通过对不同分类赋予不同的权重,来解决样本均衡问题

  3. 通过组合/集成方法解决样本不均衡
    在每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,这样反复多次会得到很多训练集和训练模型。最后在应用时,使用组合方法(例如投票、加权投票等)产生分类预测结果。

  4. 通过特征选择解决样本不均衡
    没有理解……

你可能感兴趣的:(数据预处理-样本均衡)