无监督特征选择(UFS)调研

目录

1. 无监督特征选择(UFS)算法概述

2. 任务的形式化定义 

3. 无监督特征选择算法分类 

3.1 Filter method 

3.2 Wrapper method 

3.3 Embedded method(也叫Hybrid method) 

4. 讨论与分析 

5.UFS 方法的评估与比较


1. 无监督特征选择(UFS)算法概述

特征选择(Feature Selection,FS)可以分为有监督特征选择(Supervised Feature Selection),半监督特征选择(Semi-Supervised Feature Selection)和无监督特征选择(Unsupervised Feature Selection)

无监督特征选择(Unsupervised Feature Selection,UFS)有别于监督特征选择,对于样本,仅有其特征信息,没有其类别信息,在这样的前提条件下进行特征选择。

无监督特征选择是三类特征选择任务中最为困难的一个任务。

2. 任务的形式化定义 

3. 无监督特征选择算法分类 

3.1 Filter method 

方法:仅使用特征本身的信息,不需要借助任何聚类算法来引导特征的搜索 

特点:速度较快,可扩展性强 

Filter method是目前世界上科研工作者的主要研究方向

3.2 Wrapper method 

方法:使用特定的聚类算法的结果来帮助评估特征子集的优劣,并且指导最优特征子集的搜索 

特点:选择出来的特征的应用范围比较局限于“聚类”任务,在聚类任务中,一般来说会取得比较好的结果

由于需要多次使用聚类算法来评估特征,因此模型的计算时间复杂度一般比较大。

3.3 Embedded method(也叫Hybrid method) 

方法:定义一个目标函数,在优化该目标函数的过程中同时完成“特征选择”和“样本的聚类”;

特点:结合上述的Filter method 和 Wrapper method 的优点,是效率和效果的折中、权衡。

4. 讨论与分析 

与监督特征选择、半监督特征选择相比,无监督特征选择问题较为困难的原因在于:

难以定义特征的相关性(i.e. 一个特征的“有用性”,这里的“相关性”指的是“与任务的相关性”)

目前UFS方法来衡量特征相关性的做法主要可以分为以下三类:

(1)通过选取那些可以最好地保留原始数据的流形结构(manifold structure)的特征

(2)通过一些聚类算法来计算一些“聚类指标“(也常称为”伪标签“(pseudo label)),有了这些”伪标签“信息,我们就可以把无监督问题转化为有监督问题了。

(3)基于堆特征之间的相关性(feature dependency)的考量,目标是选取一个特征子集,该特征子集有着最高/最小的相关性。

5.UFS 方法的评估与比较

现在主要有3种方式来评估UFS方法的效果:

5.1 使用一个无监督/有监督的分类器,在一个具体任务(监督学习任务,有样本的标签信息),上对UFS方法选择出的特征进行评估。 

这种评价方式是目前最为广为使用和接受的,在这类方法中,主要有以下两种具体的做法:

5.1.1 使用ACC(分类准确率) 或是err(误差率)在一个监督学习任务中进行评估

具体地,使用UFS选择出的特征子集F,某个监督学习的分类器CL(如KNN,SVM,NB等),CL用F去做有监督的分类任务,并评估分类结果的ACC/err

5.1.2 使用某个聚类算法(如K-means,EM,COBWEB等)的结果来评估UFS选择出特征的好坏。

常用的评价指标有Normalized Mutual Information(标准化互信息,NMI)、Clustering Accuracy(聚类准确率,AC)

你可能感兴趣的:(特征选择,聚类,算法)