A review of unsupervised feature selection methods-无监督特征选择方法综述(二)

UFS

如前一节所述,无监督特征选择(UFS)方法可以根据用于选择特征的策略分类为过滤器、包装器和混合方法。在本节中,首先,我们将文献中报告的UFS方法组织到图1所示的分类中。然后,我们描述了每一种方法,重点介绍了它们的主要特点和它们所基于的思想。

A review of unsupervised feature selection methods-无监督特征选择方法综述(二)_第1张图片

Filter approach

单变量:也称为基于排名的UFS方法,使用一些标准来评估每个特征,以获得有序的特征列表(排名),其中最终的特征子集是根据该顺序选择的。这种方法可以有效地识别和删除不相关的特征,但由于没有考虑特征之间可能的依赖关系,因此无法删除冗余的特征。

多变量:另一方面,多变量方法联合评估特征的相关性,而不是单独评估。多变量方法可以处理冗余和不相关的特征;因此,在许多情况下,使用多元方法选择的特征子集的学习算法所达到的精度优于使用单变量方法所达到的精度。

Univariate filter methods

在单变量过滤方法中,可以分为两个:可以基于信息论评估每个特征相关性的方法,以及基于光谱分析(流形学习)评估特征的方法,使用对象之间的相似性。前者遵循通过诸如熵、散度、互信息等度量来评估数据分散程度的思想,以确定数据中的聚类结构。

另一方面,基于光谱分析相似性的方法,也称为光谱特征选择方法,遵循使用拉普拉斯矩阵的特征系统或从对象相似性矩阵导出的归一化拉普拉斯矩阵建模或识别局部或全局数据结构的思想。

  • Information based methods

    SUD (Sequential backward selection method for Unsupervised Data)

    Dash等人(1997年)介绍了这一类别中最早开发的方法之一,其中作者提出了一种新的过滤器无监督特征选择方法,称为SUD(无监督数据的顺序反向选择方法)。该过滤方法使用基于距离的相似性熵度量对特征进行加权,该熵定义为从相似性矩阵W中导出的总熵,其中该矩阵的元素包含数据集中对象对之间的相似性。

    其思想是基于这样一个事实来测量数据的熵:

    当每对对象非常近或非常远时,熵较低;而如果对象对之间的大多数距离接近平均距离,则熵较高。因此,如果数据具有低熵,则存在定义良好的聚类结构(聚类结构),而当熵较高时则不存在。每一个特征的相关性都是使用一个留一法(一种交叉验证方法)顺序向后策略和上面提到的熵度量来量化的。最终的结果是从最相关的特征到最不相关的特征进行排序。

    SVD-Entropy

    基本思想是选择那些最能代表数据的特征,通过其奇异值测量原始数据矩阵的熵。这个熵在0和1之间变化,这样当熵很低(接近于0)时,由于数据矩阵的谱不是均匀分布的,形成了良好的集群;相比之下,当熵高时,谱(由数据矩阵奇异值的平方组成的集合)分布均匀,聚类结构不明确(就是分的不开的意思)。通过留一法比较,评估各特征对熵(CE)的贡献,并根据各自的CE值对特征进行排序。

    在这项工作中,提出了三种不同的方法来选择最终的特征子集:简单排序前向选择后向消除

    第一个策略是从排名中选择第d个特征。

    前向选择则是先根据CE最高的特征选择第一个特征,然后重新计算剩余特征集的CE值,再根据CE最高的特征选择第二个特征,直到选择d个特征。

    向后消除与前向选择相似,不同之处在于它从整个特征集合开始,在每次迭代中删除CE值最低的特征,直到达到预先指定的特征数量。

    Devakumari和Thangavel(2010)和Banerjee和Pal(2014)介绍了另外两篇基于相同想法的最新著作,其中作者提出了解决SVD-Entropy的一些缺点。在Devakumari和Thangavel(2010)中,提出了一种自适应浮动搜索,它缓解了SVD-Entropy中正向/反向选择搜索的不足。同时,在Banerjee和Pal(2014)中,解决了SVD-Entropy无法用常值区分特征的问题。此外,最后一个案例中,还提出了对监督案例的扩展。

    Rao和Sastry(2012)提出了另一种利用信息论对特征进行排序的无监督单变量滤波方法。在该方法中,目标是使用表示熵的概念对每个特征进行加权。表示熵是数据集中信息压缩的度量,由数据协方差矩阵的特征值熵计算得到。表示熵的取值范围为0 ~ 1,其中1表示最大压缩量,0表示最小压缩量。在Rao和sstry(2012)中,与之前的方法一样,特征的评分采用的是留一法策略,即一个特定特征在数据集中的重要性取决于没有该特定特征计算的数据集的熵值(CE值)的增加。这样就可以得到一个从最相关的特征(CE值最大的特征)到最小的特征排序。

  • Spectral-similarity based methods

    Laplacian Score (LS)

    最常用的基于光谱特征选择的单变量滤波UFS方法之一是拉普拉斯评分。在拉普拉斯评分中,特征的重要性通过其方差和局部保持能力来评估。该方法为那些最大程度地保留由拉普拉斯矩阵表示的预定义图结构(流形结构)的特征分配高权重。这个想法来自于这样的观察:如果两个物体彼此靠近,它们可能与同一个集群相关;以这种方式,那些对近处的物体取相似值而对远处的物体取不相似值的特征是最相关的。Padungweang等人(2009)提出了Laplacian Score的一种扩展,称为Laplacian++,其思想是基于全局拓扑而不是局部拓扑来评估特征。

    SPEC (SPECtrum decomposition)

    SPEC通过特征与对象之间的相似性所产生的图结构的一致性来评估特征的相关性。包括3个步骤:1)建立对象相似矩阵W及其图形表示。2)通过测量每个特征与拉普拉斯矩阵的非平凡特征向量之间的一致性,使用图的特征系统评估特征。根据特征相关性(一致性)按降序排列特征。根据Zhao和Liu(2011),SPEC是拉普拉斯评分的推广。

    USFSM (Unsupervised Spectral Feature Selection Method for mixed data)

    最后,发展出一种适用于混合数据的单变量无监督光谱特征选择方法USFSM。当每个特征分别从整个特征集中排除时,USFSM通过分析归一化拉普拉斯矩阵的第一个非平凡特征值的光谱分布(光谱间隙)的变化来评估特征。根据其各自的光谱间隙值以降序排序特征。
     

你可能感兴趣的:(聚类,数据挖掘,人工智能)