对训练样本分布不均的思考

背景

最近自己做一个游戏激活&付款预测的比赛,正负样本极其不均衡

正样本:51969        负样本:87529147867(875亿+)

和同事讨论之后+查资料之后,对正负样本不均有了一些新的理解。

最后的理解

样本的正负不均衡和模型学不好没有一定的联系。

对于正负样本不均衡,但是正负样本都足够多的情况,模型还是可以学好的。可能数量巨多的那一类会过拟合。

对于某类样本不够多的情况,需要提高该类权重或者新增该类样本。

对于某类样本绝对多,并且噪声大的情况,对该类样本负采样,会减少噪声。

理解这个问题

传统机器学习以降低总体分类准确度ACC(accuracy)为目标,模型效果在样本分布不均衡的时候,取决于数据量大的一类。

有些有趣的现象:(摘自 机器学习中的负采样(nagative sampling)方法在什么情况下有效,背后的原因是什么? - 赵印的回答 - 知乎 https://www.zhihu.com/question/310805161/answer/587944773)

negative sampling在以下几种情况可能会有不一样的结果。

1)样本信息过分冗余,通过negative sampling可以在相同机器资源的情况下提高训练速度,而且对效果影响很有限,这对于有限预算下是很重要的。

2)负样本不能有效反应用户真实意图的情况下,negative sampling可能会带来收益,比如有一些场景用户很可能大部分都没有看到而导致的负样本采集;

3)对于不同的问题也可能会不太一样,比如说implicit和explicit的问题,implict的feedback本身也是有折损的,也就是不点击不代表不喜欢,点击也不代表一定喜欢,需要考虑的信号就需要更仔细的看了。

样本分类不均衡分类

1. 大数据集存在分布不均衡。整体数据规模大,小样本占比较小,但是小样本也覆盖了大部分或者全部特征。

2.小数据集存在分布不均衡。整体数据规模小,少数样本比例的分类数量也少,导致特征分布严重不均衡。

解决方法

摘自 机器学习中样本不平衡,怎么办? - Jim的文章 - 知乎 https://zhuanlan.zhihu.com/p/299166450

扩大训练集

样本不平衡时,可以增加包含一定比例小类样本数据以扩大数据集,更多的数据往往战胜更好的算法。因为机器学习是使用现有的数据多整个数据的分布进行估计,因此更多的数据往往能够得到更多的分布信息,以及更好分布估计。

但有时在增加小类样本数据的同时,也增加了大类数据,并不能显著解决样本不平衡问题。此时可以通过对大类样本数据进行欠采样,以放弃部分大类数据来解决。

重新选择评价指标

确度在类别均衡的分类任务中并不能有效地评价分类器模型,造成模型失效,甚至会误导业务,造成较大损失。

最典型的评价指标即混淆矩阵Confusion Matrix:使用一个表格对分类器所预测的类别与其真实的类别的样本统计,分别为:TP、FN、FP、TN。包括精确度Precision、召回率Recall、F1得分F1-Score等。

重采样数据集

使用采样sampling策略该减轻数据的不平衡程度。主要有两种方法

  1. 对小类的数据样本进行采样来增加小类的数据样本个数,即过采样over-sampling
  2. 对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样under-sampling

采样算法往往很容易实现,并且其运行速度快,并且效果也不错。在使用采样策略时,可以考虑

  1. 不进行采样,正负样本都足够多,也不容易过拟合
  2. 对大类下的样本 (超过1万, 十万甚至更多) 进行欠采样,即删除部分样本
  3. 对小类下的样本 (不足1万甚至更少) 进行过采样,即添加部分样本的副本
  4. 尝试随机采样与非随机采样两种采样方法
  5. 对各类别尝试不同的采样比例
  6. 同时使用过采样与欠采样

产生人工数据样本

一种简单的方法,对该类下的所有样本的每个属性特征的取值空间中随机选取一个值以组成新的样本,即属性值随机采样。可以使用基于经验对属性值进行随机采样而构造新的人工样本,或使用类似朴素贝叶斯方法假设各属性之间互相独立进行采样,这样便可得到更多的数据,但是无法保证属性之前的线性关系(如果本身是存在的)。

有一个系统的构造人工数据样本的方法SMOTE (Synthetic Minority Over-sampling Technique)SMOTE是一种过采样算法,它构造新的小类样本而不是产生小类中已有的样本的副本,即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。

尝试不同的分类算法

对待每一个机器学习任务都使用自己喜欢而熟悉的算法,相信很多人都会感同身受。但对待不同任务需要根据任务本身特点选用不同等算法,尤其对样本不均衡等分类任务。应该使用不同的算法对其进行比较,因为不同的算法使用于不同的任务与数据。

决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树,因此可以强制地将不同类别的样本分开。

对模型进行惩罚

你可以使用相同的分类算法,但是使用一个不同的角度,比如你的分类任务是识别那些小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。一个具体做法就是,在训练分类器时,若分类器将小类样本分错时额外增加分类器一个小类样本分错代价,这个额外的代价可以使得分类器更加"关心"小类样本。如penalized-SVMpenalized-LDA算法。

尝试一个新的角度理解问题

我们可以从不同于分类的角度去解决数据不均衡性问题,我们可以把那些小类的样本作为异常点outliers,因此该问题便转化为异常点检测anomaly detection与变化趋势检测问题change detection

异常点检测即是对那些罕见事件进行识别。如通过机器的部件的振动识别机器故障,又如通过系统调用序列识别恶意程序。这些事件相对于正常情况是很少见的。

变化趋势检测类似于异常点检测,不同在于其通过检测不寻常的变化趋势来识别。如通过观察用户模式或银行交易来检测用户行为的不寻常改变。

将小类样本作为异常点这种思维的转变,可以帮助考虑新的方法去分离或分类样本。这两种方法从不同的角度去思考,让你尝试新的方法去解决问题。

问题学习

1. 为何样本要均匀一些?

原因在于,在不均衡条件下,训练机制的作用(比如某些batch中会只有一类样本),会导致比例较低的类别欠拟合,而比例较高的类别会过拟合。

2. 是不是一定要做样本均衡?

不一定。过采样与欠采样只是为了让模型能充分学习到各类样本的特征,模型学到的理想特征是与样本自身相关的而不是样本的分布。所以只要样本的特征足够,模型就可以学出来,不一定要考虑样本的分布。

 

机器学习中样本不平衡,怎么办? - Jim的文章 - 知乎 https://zhuanlan.zhihu.com/p/299166450

在不平衡样本问题里,过采样与欠采样改变了训练集里样本的分布,这样与测试集分布不一致,还能做出正确预测? - 杨传贵的回答 - 知乎 https://www.zhihu.com/question/362308027/answer/979141091

在不平衡样本问题里,过采样与欠采样改变了训练集里样本的分布,这样与测试集分布不一致,还能做出正确预测? - Ana的回答 - 知乎 https://www.zhihu.com/question/362308027/answer/945610315

你可能感兴趣的:(机器学习,机器学习,样本不均衡)