A review of unsupervised feature selection methods-无监督特征选择方法综述(一)

Solorio-Fernández, S., Carrasco-Ochoa, J.A. & Martínez-Trinidad, J.F. A review of unsupervised feature selection methods. Artif Intell Rev 53, 907–948 (2020). https://doi.org/10.1007/s10462-019-09682-y

Absract

近年来,无监督特征选择方法在许多研究领域引起了极大的兴趣;这主要是因为它们能够识别和选择相关特征,而不需要类别标签信息。在本文中,我们对文献中报道的最相关和最新的无监督特征选择方法进行了全面和结构化的回顾。我们提出了这些方法的分类,并描述了它们的主要特征和基本思想。此外,我们总结了本综述中分析的方法分类的一般路线的优缺点。此外,还对每种方法中最具代表性的方法进行了实验比较。最后,我们讨论了该研究领域的一些重要开放挑战。

Keywords

无监督学习,降维,无监督特征选择,聚类特征选择

Introduction

Q:特征选择(也称为属性选择)出现的领域?

A:模式识别、机器学习、数据挖掘、统计分析

Q:为什么做特征选择?

A:

  1. 在上述这些领域,研究(对象/实例/观察/样本,通常表示为向量)通常在其描述中包含不相关和冗余的特征,这会显著影响数据分析,导致偏差甚至错误的模型。

  2. 特征选择是分类、回归、聚类任务中选择最有用特征来构建模型的过程。

  3. 特征选择不仅降低了数据维度,便于数据的可视化和理解;还可以建立更小的模型,具有更好的泛化能力。

特征选择(FS)可以分为3种方法:

  1. 有监督FS

    需要有标签的数据集,标签可以为类别、有序值、实际值(西瓜的颜色、形状。。。。。。)。

  2. 半监督FS

    标记某些对象。

  3. 无监督FS

    不需要标记对象

UFS方法有两个重要优势:

  1. 无偏的,并且在先验知识不可用时表现良好。

  2. 它们可以降低数据过度拟合的风险。

UFS可以分为3种主要方法:

  1. Filter方法通过数据本身选择最相关的特征,即基于数据内在属性来评估特征,而不需要任何可指导相关特征搜索的聚类算法。速度快,可扩展性。

  2. Wrapper方法使用特定的聚类算法的结果来评估特征子集。这种方法特点是找到有助于提高聚类算法结果质量的特征子集。但是计算消耗大,且仅限于与特定的聚类算法结合使用。

  3. Hybrid方法想利用1和2这两种方法的特性,试图在效率(计算工作)和有效性(使用所选特征时相关目标任务的质量)之间有一个很好的折衷。

在目前的文献中,有关特征选择有一些综述,然而,他们都关注于有监督和半监督的特征选择,或者大多数的情况的特征选择,还有一些专注于描述特定领域的特征选择。

在本文中,我们主要研究无监督特征选择(UFS)。我们打算通过对最相关(参考最多)和最新最先进作品的全面和结构化审查,提供UFS方法的总体情况;描述了这些方法的主要特点和基本思想。

此外,在我们的综述中,我们提出了已发明的UFS方法的分类;根据它们的方法、类型和子类型对它们进行分类,并指出这些通用路线的主要优点和缺点。此外,我们在标准公共数据集上对每种方法中最具代表性的方法进行了实验比较,并总结了我们的综述,强调了无监督特征选择中的一些公开挑战。据我们所知,这是第一次在无监督的特征选择方面进行全面审查,为受众、从业者和学者提供了关于该研究领域中最相关和最新特征选择方法的一般观点。

文章结构:

  • 第二节,文献中提出的主要的UFS。

  • 第三节,对UFS的分析和讨论优点、缺点、特征选择标准、分析表现评估、文中对已有的UFS方法进行了实验比较。

  • 第四节,提出自己的结论,指出了在无监督特征选择方面存在的一些挑战和研究方向。
     

 ​​​​​​​​​​​​​​​​​​​​​​​​​​​​A review of unsupervised feature selection methods-无监督特征选择方法综述(二)_aab11235的博客-CSDN博客

A review of unsupervised feature selection methods-无监督特征选择方法综述(三)_aab11235的博客-CSDN博客

A review of unsupervised feature selection methods-无监督特征选择方法综述(四)_aab11235的博客-CSDN博客

​​​​​​A review of unsupervised feature selection methods-无监督特征选择方法综述(五)_aab11235的博客-CSDN博客 

A review of unsupervised feature selection methods-无监督特征选择方法综述(六)_aab11235的博客-CSDN博客

A review of unsupervised feature selection methods-无监督特征选择方法综述(七)文中图表_aab11235的博客-CSDN博客 

 

你可能感兴趣的:(算法)