无监督特征选择(UFS)方法可以根据用于选择特征的策略进行分类,如过滤器、包装器和混合方法。
只根据数据内在属性评估特征,不使用聚类算法等辅助特征搜索的方法。
速度快、可扩展性强
分为单变量和多变量
遵循通过熵、散度、互信息等度量来评估数据的分散程度,以识别数据中的聚类结构
1.SUD (Sequential backward selection method for Unsupervised Data)
2.SVD-Entropy
3.information theory based,基于信息论的方法
基于谱特征选择的最具参考价值和相关性的单变量滤波器UFS方法之一是拉普拉斯评分。
在拉普拉斯评分中,特征的重要性是通过其方差和局部保持能力来评估的。
1.SPEC (SPECtrum decomposition)
2.USFSM (Unsupervised Spectral Feature Selection Method for mixed data)
可分为三大类
1.统计/信息:包括使用统计和/或信息理论度量(如方差协方差、线性相关、熵、互信息等)进行选择的UFS方法。
2.生物启发Bio-inspired:使用基于群体智能范式的随机搜索策略来寻找满足某些质量标准的良好特征子集。
3.基于光谱/稀疏学习:包括基于谱分析或基于谱分析和稀疏学习的组合,这些方法常被称为嵌入式方法,因为特征选择是作为一部分实现的
1.FSFS (Feature Selection using Feature Similarity)
2.RRFS (Relevance Redundancy Feature Selection)
3.MPMR (feature selection based on Maximum Projection and Minimum Redundancy)
1.UFSACO (Unsupervised Feature Selection based on Ant Colony Optimization)
2.MGSACO (Microarray Gene Selection based on Ant Colony Optimization)基于蚁群优化的微阵列基因选择
3.RR-FSACO (Relevance-Redundancy Feature Selection based on ACO)根据蚁群优化的相关性冗余特征选择
4.UPFS (Unsupervised Probabilistic Feature Selection using ant colony optimization)使用蚁群优化的无监督概率特征选择
1.mR-SP (minimum-Redundancy SPectral feature selection)
2.LLDA-RFE (Laplacian Linear Discriminant Analysis-based Recursive Feature Elimination)
3.MCFS (Multi-Cluster Feature Selection)
4.MRSF (Minimize the feature Redundancy for Spectral Feature selection)
5.UDFS (Unsupervised Discriminative Feature Selection algorithm)
6.JELSR (Joint Embedding Learning and Sparse Regression)
7.USFS(Unsupervised Spectral Feature Selection with l1-norm graph)
8.NDFS (Nonnegative Discriminative Feature Selection)
9.FSLR (Feature subset with Sparsity and Low Redundancy)
10.CDL-FS (Couple Dictionary Learning Feature Selection)
11.SOGFS (Structured Optimal Graph Feature Selection)
12.CGSSL (ClusteringGuided Sparse Structural Learning)
13.RUFS (Robust Unsupervised Feature Selection)
14.SPNFSR (StructurePreserving Non-negative Feature Self-Representation)
15.DSRMR (Dual Self-Representation and Manifold Regularization)
使用特定聚类算法的结果来评估特征子集。在这种方法下开发的方法的特点是找到有助于提高用于选择的聚类算法结果质量的特征子集。具有较高的计算成本,并且它们仅限于与特定的聚类算法结合使用。
根据特征搜索策略分为三大类:sequential, bio-inspired, and iterative
sequential:按顺序添加或删除的。基于顺序搜索的方法易于实现且快速
inspired:将随机性纳入搜索过程,旨在摆脱局部最优。
iterative:通过将无监督特征选择问题转化为估计问题来解决,从而避免了组合搜索。
1.SS-SFS (Simplified Silhouette Sequential Forward Selection)
1.ELSA(evolutionary local selection algorithm )
2.MOGA(multi-objective genetic algorithm)
1.LLC-fs (Local Learningbased Clustering algorithm with feature selection)
2.EUFS (Embedded Unsupervised Feature Selection)
3.DGUFS (Dependence Guided Unsupervised Feature Selection)
利用过滤器和包装器这两种方法的特性,试图在效率(计算工作量)和有效性(使用所选特征时相关目标任务的质量)之间取得良好的折中。
1.BFK( a hybrid UFS method non-based on ranking)
A review of unsupervised feature selection methods