在上一节中,根据方法、类型和子类型对无监督特征选择方法进行了分类和回顾。在本节中,将讨论第2节中描述的UFS方法的一些总体方面、优点和缺点。此外,在本节中,对每个类别中最相关和最新的UFS方法进行了实验评估。
在表1中,我们总结了属于过滤器、包装器、混合方法的UFS方法的一般优缺点,在表2中,我们展示了所描述的UFS方法在其类型、子类型和方法方面的优缺点;与图1所示的分类法一致。此外,为了更详细地介绍本综述中分析的UFS方法,我们在表3中总结了这些方法。在该表中,显示了用于评估选择质量的参考、方法、方法类型以及数据集(括号中的数字表示用于验证的数据集数量)、分类器/聚类算法和验证措施。
正如我们在表1和表2中所看到的,一般来说,对于所有类型的数据和领域,没有更好的UFS方法或方法,每种方法都有其优缺点。然而,从我们的文献研究和表1、2和3中,我们可以突出属于不同方法和类型的不同方法的一些重要一般特征。
在表3中,我们可以看到,与过滤方法相比,用于无监督特征选择的包装器方法很少。这主要是因为包装器对于高维问题变得不太有用,这使得它们很少在实践中使用。另一方面,考虑到混合方法在所选特征子集的效率和质量之间的折衷,混合方法优于包装方法。然而,文献中也很少报道用于无监督特征选择的混合方法。相反,滤波器方法得到了更多的关注。这是可以理解的,因为过去几年的技术进步,以及跨许多科学学科(比如文本挖掘、基因组分析、社交媒体和入侵检测等)生成的大量未标记数据,这些学科都需要快速、可扩展的方法。滤波方法下的无监督特征选择方法依赖于数据的一般特征,在不涉及任何聚类算法的情况下对特征进行评价;因此,他们对特定的学习模式没有偏见。此外,过滤方法易于设计,易于其他研究人员理解,而且通常速度非常快(Zhao 2010),这使得它们对高维数据具有吸引力。此外,正如我们在图1的分类中所看到的,有一种倾向于开发基于光谱特征选择和稀疏学习的滤波方法。这主要是因为这些方法除了速度快之外,在所选特征的质量方面也取得了良好的结果。
A review of unsupervised feature selection methods-无监督特征选择方法综述(七)文中图表_aab11235的博客-CSDN博客
表1-UFS方法在其方法方面的一般优缺点
方法 | 优点 | 缺点 |
---|---|---|
过滤器 | 速度快 | 忽略与聚类算法的交互 |
可扩展 | ||
独立于聚类算法 | ||
可并行的 | ||
包装器 | 与要使用的聚类算法交互 | 过拟合的风险 |
可以对功能依赖项进行建模 | 高计算成本 | |
该选择特定于使用的聚类算法 | ||
混合方法 | 与要使用的聚类算法交互 | 该选择特定于使用的聚类算法 |
比包装器更省时 | ||
可以对功能依赖项进行建模 |
表2-UFS方法在类型方面的优缺点
方法类型/子型 | 方法 | 优点 | 缺点 |
---|---|---|---|
基于单变量信息 | 过滤器 | 坚实的理论背景 | 忽略特征之间的相关性 |
基于信息的度量可以建模线性和非线性关系 | |||
基于信息的度量对于数据的维度是无偏的 | |||
基于单变量光谱/相似性的 | 过滤器 | 坚实的理论背景 | 忽略特征之间的相关性 |
为无监督的特征选择提供强大的框架 | |||
多元统计/信息基础 | 过滤器 | 可以对功能依赖项进行建模 | 比单变量方法慢 |
比包装器方法耗时更少 | 与单变量方法相比,可扩展性较差 | ||
多元仿生 | 过滤器 | 不太容易陷入局部最优 | 比单变量方法慢 |
考虑模型特征依赖关系 | 高内存要求 | ||
基于多变量谱/稀疏学习 | 过滤器 | 坚实的理论背景 | 比单变量方法慢 |
处理冗余功能 | 与单变量方法相比,可扩展性较差 | ||
连续的 | 包装器 | 易于实现 | 过拟合的风险 |
易陷入局部最优 | |||
仿生 | 包装器 | 不太容易陷入局部最优 | 与基于顺序的方法相比,过度拟合的风险更高 |
可以对功能依赖项进行建模 | 高内存要求 | ||
迭代 | 包装器 | 可以对功能依赖项进行建模 | 过拟合的风险 |
同时进行特征选择和聚类 | |||
基于排名 | 混合 | 单个相关特征可以更容易地从特征排名中识别和选择 | 过滤器和包装器方法不能真正地相互集成,这可能导致低质量的性能 |
非基于排名 | 混合 | 可以利用基于排名的方法无法利用的其他想法,例如,在筛选阶段对特征依赖性进行建模 | 单个相关功能不容易识别,因为没有功能的排序 |
过滤器和包装器方法不能真正地相互集成,这可能导致低质量的性能 |
确定相关特征的标准
与监督和半监督特征选择不同,由于难以定义特征相关性,无监督特征选择被认为是一个困难得多的问题(Dy和Brodley 2004)(与监督特征选择不同,监督特征选择具有类标签来指导鉴别特征的搜索,在UFS中,我们必须以客观概念的形式定义特征相关性)。在这方面,从我们综述中分析的所有UFS方法中,我们已经能够确定3个常用于确定相关特征的主要标准。第1个是选择那些能够最好地保留原始数据的流形结构的特征;我们可以在属于滤波器方法的基于单变量和多变量谱/稀疏学习的方法中找到使用该准则的方法的示例。第2个标准是通过聚类算法寻找聚类指标(被认为是伪标签),然后将无监督的特征选择转化为有监督的上下文;这种方法的一些例子可以在基于多变量谱/稀疏学习的滤波器、包装器和混合方法中找到。最后,还有另一个基于特征间相关性(特征相关性)分析的标准,其中目标在于选择特征间相关性最高或最低的特征子集。最后一个标准的一些例子可以在基于多元统计的滤波方法中找到。
确定冗余特征的标准
特征相关性除了作为选择相关特征的标准外,还用于定义特征冗余。一般来说,在无监督特征选择的文献中,我们已经确定了两种主要的方法来量化特定特征子集的冗余:(1)在不考虑客观概念的情况下量化冗余,(2)在考虑客观概念的情况下量化冗余。在第一种情况下,目标在于通过使用统计或基于信息的度量来测量特征之间的依赖程度、相似性、关联或相关性(通常是成对的)。该方法下的一些方法示例包括Mitra等人(2002年)、Haindl等人(2006年)、GarciaGarcia和Santos Rodriguez(2009年)、Yen等人(2010年)、Zhao等人(2013年)、Tabakhi等人(2014年)、Tabakhi和Moradi(2015年)、Tabakhi等人(2015年)、Han等人(2015年)以及Li和Tang(2015年)。同时,在第二种情况下,目的是量化特征之间的关系;进一步考虑一个特定的任务或目标概念,这些特征可能被认为是多余的。这通常通过联合评估特征和在约束回归优化模型中使用稀疏正则化来实现。郑等人(2010)、蔡等人(2010)、赵和刘(2011)、侯等人(2011)和朱等人(2016)是使用最后一种方法的UFS方法的一些示例。
用于评估UFS方法的性能评估和数据集
表3帮助我们认识到,无监督特征选择方法的性能评估是以不同的方式进行的。尽管如此,从本次审查的分析中,我们可以确定评估UFS方法结果的三种主要方法:
根据特定监督/非监督分类器所选特征的质量进行评估。这种评估是应用最广泛的,并且已经成为评估无监督特征选择方法的最被接受的方式。在这种类型的评估中,区分了两种标准方法。
使用监督分类器的分类精度或错误率进行评估,如kNN(Fix和Hodges 1951)、SVM(Cortes和Vapnik 1995)和Naive Bayes(NB)(Maron 1961;John和Langley 1995)等。从表3中,我们可以看出,这种评估常用于光谱特征选择、基于统计和仿生方法。
使用聚类算法的结果进行评估,如k-means(MacQueen 1967)、EM(Dempster et al.1977)和COBWEB(Fisher 1987)。为了评估聚类质量,通常使用归一化互信息(NMI)和聚类准确度(ACC)等度量。包装器和混合UFS方法,以及基于稀疏学习和光谱特征选择的多变量滤波方法通常使用聚类算法来评估所选特征的质量。
根据所选特征的冗余度进行评估。这种评价被认为是消除冗余特征的方法(MITRA等人,2002;Li等人,2007;Haunl等人,2006;Yanget等人,2010;王等人.2015a;TabaKi等人2014;Garcia Garcia和Santos Rodriguez 2009;Li等人,2012;李和Tang2015)。对于该评估,冗余率(Zheng等人2010)和表示熵(Devjver和Kittler 1982)是最常用的冗余度量。
根据所选特征的正确性进行评估。该评估包括使用特定度量(如精度、召回率或F-度量)量化通过无监督特征选择方法选择的相关特征量。当然,这通常是使用合成数据集来完成的,在合成数据集中,实际的相关特征是先验的,这对于真实世界的数据集通常是不可能的。
关于用于评估UFS方法的数据集,从表3可以看出,至少有一半的审查作品使用了著名的UCI机器学习库(UCI Machine Learning Repository.)(Lichman 2013)中的数据,该库包含多种不同大小、对象数量和特征(包括数字、非数字和混合)的数据集。另一半的已审查作品,特别是基于光谱分析和稀疏学习的作品,大多使用高维数据集,如文本、生物数据和图像等。同样,我们可以在表3中观察到,用于验证UFS方法的数据集数量从1到42不等,平均值为7。从我们的观点来看,这表明需要使用大量数据集进行更广泛的实证研究,以评估文献中提出的UFS方法的实际性能。
A review of unsupervised feature selection methods-无监督特征选择方法综述(七)文中图表_aab11235的博客-CSDN博客
为了比较本文中审查的UFS方法的不同方法和类别的性能,我们选择了15种最相关的最新UFS方法(考虑到每种方法和类别),并在UCI机器学习库的15个数据集上对其进行了评估(表4总结了所选数据集的详细信息)。目的是对不同类型数据(数值、非数值和混合数据)的这些方法的性能进行经验比较,包括所选特征的质量和运行时间并根据实验结果进行进一步分析。具体来说,在我们的实验中,我们比较了以下UFS方法:
过滤器,
–单变量:SVD熵(Varshavsky et al.2006)、拉普拉斯分数(LS)(He et al.2005)、SPEC(Zhao and Liu 2007)和USFSM(Solorio Fernández et al.2017)。
–多变量:FSFS(Mitraetal.2002)、RRFS(FerreiraandFigueiredo 2012)、UDFS,(Yang et al.2011b)、NDFS(Li et al.2012)、UFSACO(Tabakhi et al.2014)、MGSACO(Tabakhi et al.2015)和DSRMR(Tang et al.2018a)。
Wrapper LLC fs(Zeng和Cheung 2011)和DGUFS(Guo和Zhu 2018)。
Hybrid Li等人(2006年)和WNCH-BE(Solorio Fernández等人,2016年)。
我们的实验采用了所有原始特征作为基线。
按照评估UFS方法的标准方法,我们从聚类和分类性能方面评估UFS方法。为了评估聚类结果,常用的聚类性能指标ACC(聚类准确度)和NMI(归一化互信息)应用于k-means聚类算法(为了得到更可靠的结果,我们用不同的初始点重复k-means算法十次,并报告平均聚类质量结果。)对每个数据集上的每个UFS方法所选特征生成的分区。另一方面,为了评估UFS方法的分类性能,我们使用了著名且广泛使用的SVM(Cortes和Vapnik 1995)分类器。对于评估,我们采用分层五折交叉验证,最终分类性能报告为五折的平均准确度。对于每个折叠,每个UFS方法首先应用于训练集(忽略类标签)以获得特征子集。然后,在使用所选特征训练分类器之后,使用相应的测试集通过其精度评估分类器。此外,我们评估每个用于执行特征选择的UFS方法的运行时间。
我们的实验中使用的SVM分类器和K-Means聚类算法是从Weka数据挖掘软件工具(Hall等,2009)中使用的,对于SVM,我们使用了其默认参数值,而K-means的参数k设置成为每个数据集声明的类数。 同样,对于在我们的实验中分析的不同UFS方法,我们使用了作者的实现,并且根据各自作者的建议确定参数值。 所有实验在Matlab®R2018A中运行Java 1.8,使用带有英特尔酷睿i7-2600 3.40 GHz×8处理器的计算机,采用32 GB DDR4 RAM,运行64位Ubuntu 16.04 LTS(GNU / Linux 4.13.0-38通用 ) 操作系统。
在我们的实验中,对于提供作为输出的特征排名的UFS方法,或者需要作为输入参数选择的特征,我们为第一个,我们设置了40%,50%和60%的排名功能, 分别与第二个功能的整组特征相同。 将不同百分比的最佳分类和聚类结果作为所有特征选择方法报告为最终结果。 此外,在我们的实验中,弗里德曼测试(Friedman 1937)用于制作和评估所有评估方法的排名。 重要的是要提及所有数据集,对于特征选择和群集,删除了类标签,并且对于那些只能处理数字特征的UFS方法,通过将每个分类值映射到整数中,将非数字特征转换为数字。 按数据集的外观顺序值。
表5,6,7和8显示关于分类的最终结果(见表5),聚类(参见表6和7),以及运行时间(参见表8)性能。 在表5,6和7中,每个数据集的平均值的最佳方法以“粗体”出现,并且每个表的最后一行显示所有测试数据集的平均等级。
A review of unsupervised feature selection methods-无监督特征选择方法综述(七)文中图表_aab11235的博客-CSDN博客
关于UFS方法在监督分类性能方面的评估,从表5可以看出,可以看出,与使用所有特征相比,UFS方法可以获得具有竞争力的或在某些情况下更好的分类性能,但特征较少。在这个表中,我们可以看到USFSM和NDFS在过滤方法中的UFS方法中获得了最好的平均排名;LLC-fs是包装器方法中最好的方法,而Li等人(2006)提出的方法是混合方法中最好的方法。
另一方面,关于UFS方法在聚类性能方面的评估,在表6和表7中,我们可以看到,在单变量方法中,对于过滤方法中的质量度量NMI和ACC,在UFS单变量方法中,SVD-entropy和LS方法获得了最佳结果;同时,UDFS、NDFS、DSRMR和UFSACO在多变量中得到了最好的结果。注意,上述大多数单变量和多变量方法比使用所有特征时得到的结果更好。滤波法中最差的结果是通过多元统计方法得到的。在这种情况下,一般来说,包装器方法和混合方法得到的结果最差。
关于运行时间,从表8可以看出,最快的UFS方法是过滤器方法中的那些方法;单变量UFS方法中的LS和SPEC,以及多变量UFS方法中的FSFS和RRFS。而LLC-fs和LS-WNCH-BE分别是包装方法和混合方法中最快的方法。还可以注意到,速度最慢的方法是DSRMR、USFSM和Li等人(2006)提出的混合方法。
A review of unsupervised feature selection methods-无监督特征选择方法综述(七)文中图表_aab11235的博客-CSDN博客
最后,根据表5、表6、表7和表8所示的结果,我们可以得出以下结论:
每种UFS方法选择的特征的质量在很大程度上取决于所使用的学习算法和验证措施。例如,我们可以观察到,支持向量机的有用特征子集可能不如k-均值,反之亦然。
基于滤波多元谱/稀疏学习的方法在分类和聚类任务中都获得了最好的结果。相反,基于多元统计的方法通常在分类和聚类任务中得到最差的结果。特别是那些在不考虑消除无关特征的情况下消除冗余特征的方法。
当应用特征选择时,聚类算法的结果质量较好,而在监督分类任务中,聚类算法的结果质量较差。
过滤方法是最快的,特别是基于统计的方法。然而,这些过滤方法通常在质量方面提供最差的结果。
无监督特征选择方法因其在未标记数据(无监督数据集)中选择特征的能力而引起了各个研究领域的兴趣。本文回顾了最相关和最新的UFS技术。此外,我们还介绍了UFS方法的分类,并总结了本综述中分析的方法分类的一般路线的优缺点。此外,还对每种方法中最具代表性的方法进行了实验比较。
总的来说,我们观察到许多研究人员在开发过滤方法下的方法方面付出了巨大而富有成效的努力。这是因为,通常情况下,过滤方法比包装器和混合方法具有更低的计算成本,这使得它们适用于高维数据集。此外,最近的发展表明,基于光谱特征选择(Zhao和Liu 2011)和稀疏学习(El Ghaoui et al.2011)的滤波方法得到了越来越多的发展,尤其是在图像、文本和生物数据上的应用。
关于无监督特征选择的主要挑战和公开问题,我们可以提到以下几点:
根据文献综述,观察到大多数无监督特征选择方法(过滤器、包装器或混合)需要指定超参数,如特征数量、聚类数量或每种方法使用的特征选择技术固有的其他参数。然而,在实践中没有这样的知识,并且大多数情况下不可能知道每个数据集的最佳参数值。因此,自动选择最佳参数值是一个公开的问题。
可扩展性是功能选择中的另一个重要挑战,因为许多应用程序涉及非常大的对象和/或功能集合。在过去几年中,产生了具有数百万特征的数据集,根据Bolón-Canedo等人(2015年)的数据,有证据表明,鉴于计算和信息技术的快速发展,这一数字将增加。因此,需要可伸缩的方法,因为现有的方法不能处理大量的特性。
特征选择方法的稳定性是选择对数据扰动的敏感性(Alelyani等人,2011)。根据Li et al.(2016),研究无监督特征选择的稳定性比有监督方法困难得多,因为在无监督特征选择中,我们没有足够的关于数据聚类结构的先验知识。尽管最近在无监督环境下分析特征选择方法稳定性的工作已经完成(Alelyani 2013),但在这方面还有很多工作要做。
另一个重要挑战是无监督特征选择,即在数据同时由数字特征和非数字特征(混合数据)描述的问题中如何选择相关特征。混合数据非常常见,它出现在许多实际问题中。例如,在生物医学和医疗保健应用(Daniels和Normand,2005年)、社会经济学和商业(De Leon和Chough,2013年)、软件成本估算(Liu等人,2013年)等方面。然而,正如我们在本综述中所看到的,大多数现有方法(除了Solorio Fernández等人(2017年)和Dutta等人(2014年)中提出的方法)仅为数值数据而设计。因此,对于混合数据,有开发新的无监督特征选择方法的空间。