目录
1. 无监督特征选择(UFS)算法概述
2. 任务的形式化定义
3. 无监督特征选择算法分类
3.1 Filter method
3.2 Wrapper method
3.3 Embedded method(也叫Hybrid method)
4. 讨论与分析
5.UFS 方法的评估与比较
特征选择(Feature Selection,FS)可以分为有监督特征选择(Supervised Feature Selection),半监督特征选择(Semi-Supervised Feature Selection)和无监督特征选择(Unsupervised Feature Selection)
无监督特征选择(Unsupervised Feature Selection,UFS)有别于监督特征选择,对于样本,仅有其特征信息,没有其类别信息,在这样的前提条件下进行特征选择。
无监督特征选择是三类特征选择任务中最为困难的一个任务。
方法:仅使用特征本身的信息,不需要借助任何聚类算法来引导特征的搜索
特点:速度较快,可扩展性强
Filter method是目前世界上科研工作者的主要研究方向
方法:使用特定的聚类算法的结果来帮助评估特征子集的优劣,并且指导最优特征子集的搜索
特点:选择出来的特征的应用范围比较局限于“聚类”任务,在聚类任务中,一般来说会取得比较好的结果
由于需要多次使用聚类算法来评估特征,因此模型的计算时间复杂度一般比较大。
方法:定义一个目标函数,在优化该目标函数的过程中同时完成“特征选择”和“样本的聚类”;
特点:结合上述的Filter method 和 Wrapper method 的优点,是效率和效果的折中、权衡。
与监督特征选择、半监督特征选择相比,无监督特征选择问题较为困难的原因在于:
难以定义特征的相关性(i.e. 一个特征的“有用性”,这里的“相关性”指的是“与任务的相关性”)
目前UFS方法来衡量特征相关性的做法主要可以分为以下三类:
(1)通过选取那些可以最好地保留原始数据的流形结构(manifold structure)的特征
(2)通过一些聚类算法来计算一些“聚类指标“(也常称为”伪标签“(pseudo label)),有了这些”伪标签“信息,我们就可以把无监督问题转化为有监督问题了。
(3)基于堆特征之间的相关性(feature dependency)的考量,目标是选取一个特征子集,该特征子集有着最高/最小的相关性。
现在主要有3种方式来评估UFS方法的效果:
5.1 使用一个无监督/有监督的分类器,在一个具体任务(监督学习任务,有样本的标签信息),上对UFS方法选择出的特征进行评估。
这种评价方式是目前最为广为使用和接受的,在这类方法中,主要有以下两种具体的做法:
5.1.1 使用ACC(分类准确率) 或是err(误差率)在一个监督学习任务中进行评估
具体地,使用UFS选择出的特征子集F,某个监督学习的分类器CL(如KNN,SVM,NB等),CL用F去做有监督的分类任务,并评估分类结果的ACC/err
5.1.2 使用某个聚类算法(如K-means,EM,COBWEB等)的结果来评估UFS选择出特征的好坏。
常用的评价指标有Normalized Mutual Information(标准化互信息,NMI)、Clustering Accuracy(聚类准确率,AC)