2020-1-6 学习笔记

样本不平衡问题怎么解决

  • 项目中出现了二分类数据不平衡问题,研究总结下对于类别不平衡问题的处理经验:
  • 为什么类别不平衡会影响模型的输出?
  • 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例。在数据不平衡时,默认的阈值会导致模型输出倾向与类别数据多的类别。
    因此可以在实际应用中,解决办法包括:
  1. 调整分类阈值,使得更倾向与类别少的数据。
  2. 选择合适的评估标准,比如ROC或者F1,而不是准确度(accuracy)
  3. 过采样法(sampling):来处理不平衡的问题。分为欠采样(undersampling)和过采样(oversampling)两种。
    1. 过采样:重复少数类数据,实际上没有为模型引入更多数据,过分强调正比例数据,会放大少数类噪音对模型的影响。由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General)。
    2. 欠采样:丢弃多数类数据,会丢失信息。
  4. 数据合成:SMOTE(Synthetic Minority Oversampling Technique)即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。

smote算法(Synthetic Minority Oversampling Technique)

  • 平时很多分类问题都会面对样本不均衡的问题,很多算法在这种情况下分类效果都不够理想。类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。把样本数量过少的类别称为“少数类”。
  • SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术.它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中
  • SMOTE算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本
  • 在这里插入图片描述

Bootstrap

  • 一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?Bootstrap的奥义也就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。

独热编码(One-hot encoding)

  • 为什么要独热编码?
    独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到原点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

  • dummy encoding 哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说,我们用n个状态位就足够反应上n+1个类别的信息,Feature_1中可以用 0 0 代替1 0 ,Feature_2中可以用 0 0 0 0 代替0 0 0 1 ,Feature_2中可以用 0 0 0 代替1 0 0

  • 独热编码优缺点

    • 优点:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。
    • 缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

PRD和MRD

  • Product Requirements Document 产品需求文档
  • Market Requirements Document 市场需求文档

你可能感兴趣的:(学习日记)