高维数据分析中特征选择方法及分类

在面向高位数据分析问题时,特征选择的重要性尤为重要。特征选择方法可以被分为四类:过滤法(filter)、包装法(wrapper)、嵌入式(embedded)、混合模式(hybrid model)

1. 过滤法
该方法通过类别区分能力的评价指标进行特征选择,其中,评价指标不依赖于特定的分类器。
常见方法:信号噪声比例,卡方统计,信息增益,基于相关性的特征选择,Relief,Relief-F等。
特点:只用数据的统计特性进行特征评价和子集选择,不需要分类器。计算效率高,计算成本小,特征选择效果一般。

2. 包装法
包装器特征选择方法与过滤器特征选择方法正好相反,它依赖于特定的分类器。包装器特征选择方法使用给定的分类器算法进行特征子集的评价,并在特征空间中搜索并选择分类精度最高的特征子集。
常见方法:序列浮动选择,遗传算法,智能优化算法。
特点:精度高、效果好、时间长、波动大。
包装器特征选择方法在所使用的分类器下通常能够选出识别精度比过滤器方法更好的特征子集,但是需要消耗很多的计算时间,特别是高维数据的特征选择问题。而且,过滤器特征选择方法所选的特征子集在其它分类器下的表现相比其所使用的原分类器往往有较大波动;并且,对于少样本的高维数据,包装器特征选择方法具有很高的过拟合风险。

3. 嵌入式
将特征选择过程融入到一个特定分类器的分类建模中,如何把特征选择思想更好地融入到模型建设中是嵌入式特征选择方法成败的关键。
常见方法:随机森林,支持向量机,LARS,其中随机森林和支持向量机既可以用来做特征选择也可以用来分类。

4. 混合模型
利用过滤器和包装器两者的优点进行特征选择,首先使用过滤器方法选择特征,然后在所选特征中进一步用包装器特征选择方法选择最佳识别精度的特征子集。
**常见方法:**Fisher比例和wrapper结合,交互信息和粒子群优化结合。
**缺点:**两种不同类型的特征选择方法是分离进行的,并没有融合在一块同时进行。

你可能感兴趣的:(数据挖掘,数据分析)