面向非平衡数据的过采样方法研究

文章目录

  • 1.绪论
    • 1.1研究背景及意义
    • 1.2 非平衡数据分类问题的难点
      • 1.2.1 样本稀少
      • 1.2.2 样本边界重叠
      • 1.2.3 类内不平衡
      • 1.2.4 噪音数据
  • 2 SMOTE算法及其评价指标
    • 2.1 SMOTE 算法
    • 2.3 评价指标

1.绪论

1.1研究背景及意义

  随着科学技术的发展,数据量呈爆炸性增长。为了使这些数据更好地服务于各行各业,数据挖掘与机器学习应运而生。顾名思义,数据挖掘就是要从海量数据中发现有用的信息,从而指导决策。机器学习是数据挖掘的支撑技术,主要算法有分类、回归、聚类、关联规则等。其中,分类问题是很多领域中常见的任务,分为训练阶段和预测阶段。首先对已知的样本进行训练,得到一个分类器,然后利用这个分类器对新
样本进行预测。
  然而,对于许多现实世界中的问题,学习出一个准确的分类器仍然存在困难,尤其是从非平衡数据中学习。非平衡数据就是其中至少一个目标类别包含的样本数量要比

你可能感兴趣的:(论文,机器学习,数据挖掘,人工智能)