线性模型_类别不平衡问题

文章目录

  • 1. 类别不平衡问题
  • 2. 类别不平衡的影响
  • 3. 处理不平衡数据集的方法
    • 3.1 数据层面的方法:重采样技术
      • 3.1.1 随机欠采样(Random Under-Sampling)
      • 3.1.2 随机过采样(Random Over-Sampling)
      • 3.1.3 基于聚类的过采样(Cluster-Based Over Sampling)
      • 3.1.4 信息性过采样:合成少数类过采样技术(SMOTE)
      • 3.1.5 改进的合成少数类过采样技术(MSMOTE)
      • 3.1.6 阈值移动
    • 3.2 算法集成技术(Algorithmic Ensemble Techniques)
      • 3.2.1 基于 Bagging 的方法
      • 3.2.2. 基于 Boosting 的方法
        • 3.2.2.1 自适应 boosting——Ada Boost
        • 3.2.2.2 梯度树 boosting
        • 3.2.2.3 XGBoost
  • 4. 结论

1. 类别不平衡问题

机器学习中常常会遇到数据的类别不平衡(class imbalance),也叫数据偏斜(class skew),是指分类任务中不同类别的训练样例数目相差很大,例如电力盗窃、银行的欺诈交易、罕见疾病识别等。在这种情况下,利用传统机器学习算法开发出的预测模型可能会存在偏差和不准确。

2. 类别不平衡的影响

面临不平衡数据集的时候,传统的机器学习模型的评价方法不能精确地衡量模型的性能。诸如决策树和 Logistic 回归这些标准的分类算法会偏向于数量多的类别。它们往往会仅预测占数据大多数的类别。在总量中占少数的类别的特征就会被视为噪声,并且通常会被忽略。因此,与多数类别相比,少数类别存在比较高的误判率。

3. 处理不平衡数据集的方法

3.1 数据层面的方法:重采样技术

3.1.1 随机欠采样(Random Under-Sampling)

3.1.2 随机过采样(Random Over-Sampling)

3.1.3 基于聚类的过采样(Cluster-Based Over Sampling)

3.1.4 信息性过采样:合成少数类过采样技术(SMOTE)

3.1.5 改进的合成少数类过采样技术(MSMOTE)

3.1.6 阈值移动

3.2 算法集成技术(Algorithmic Ensemble Techniques)

3.2.1 基于 Bagging 的方法

3.2.2. 基于 Boosting 的方法

3.2.2.1 自适应 boosting——Ada Boost

3.2.2.2 梯度树 boosting

3.2.2.3 XGBoost

4. 结论

你可能感兴趣的:(机器学习算法,机器学习一小步)