有亿点点烧脑的粗糙集属性约简----1 绪论

基于自信息测度的特征选择方法研究

  • 1 背景
  • 2 自信息
  • 3 经典粗糙集
  • 4 邻域粗糙集
    • 4.1 邻域粗糙集基础知识
  • 5 模糊粗糙集
    • 5.1 模糊粗糙集基础知识
  • 6 小结
  • 参考文献

1 背景

  大数据(Big data)时代,越来越多的属性被获取存储,其中存在一些属性对于分类任务是不相关或冗余的。这些冗余的特征会使机器学习任务更加复杂,甚至降低学习性能。因此有效地处理冗余数据迫在眉睫,成为目前分类学习算法的一大挑战。
  现有的大多数特征选择方法都是基于决策下近似构造的。这样构造的算法只注重样本决策一致性的分类信息,而忽略了决策分歧的样本提供的分类信息。但实际上,样本的分类信息不仅仅与决策的下近似有关,也与它上近似有关。因此,基于决策上、下近似构造的特征评估函数对于样本的分类更贴近实际决策。依据这一想法,结合自信息的概念,针对邻域粗糙集模型和模糊粗糙集模型,考虑同时利用决策上、下近似提供的信息来构造新的特征评估函数进行特征选择的相关研究,从而弥补了决策上近似与构造特征评价函数无关的不足之处,使得特征评价函数的构造更加合理,有效。

2 自信息

  自信息由香农提出,用来刻画信号输出的不确定性。将自信息用于决策系统中可以用来刻画决策的不确定性,是决策能力评估的有效手段。基于自信息测度理论,研究以下两种模型的特征选择方法:

  1. 基于邻域粗糙集模型的特征选择
  2. 基于模糊自信息测度的特征选择

3 经典粗糙集

  粗糙集理论是作为一种处理不确定、不精确、不完备数据的有效手段。
  粗糙集的主要思想是用已知知识近似地描述不确定的知识
  属性约简是在保持系统分类信息不变的基础上,删除冗余或对分类无作用的属性,是粗糙集的核心内容之一和主要应用之一。目前国内外针对粗糙集的属性约简的研究主要分为两大类:

  1. 基于可辨识矩阵的属性约简
  2. 基于启发式算法的属性约简

4 邻域粗糙集

  邻域粗糙集是粗糙集模型中最重要的拓展模型之—。该理论的主要思想是将分明的等价关系推广为相似关系,以相似类构建决策的上下近似,从而有效地处理连续型数据的分类问题。

4.1 邻域粗糙集基础知识

  别问,问就是不会!!!(占坑,后面学习补充)

5 模糊粗糙集

  模糊粗糙集理论的基本思想是利用模糊相似关系构造模糊集的模糊上下近似,然后通过计算模糊下近似的并集来定义模糊集的正区域。

5.1 模糊粗糙集基础知识

  别问,问就是数学知识太烧脑!!!(占坑,后面学习补充)

6 小结

  吃苦趁现在!QoMo 和大家一起共同努力学习!共勉!

参考文献

[1]黄洋. 基于自信息测度的特征选择方法研究[D].渤海大学,2019.

你可能感兴趣的:(机器学习)